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生成 对 抗 网 络 〈 generative adversarial network，GAN ) 可 用 于 构建 新 一 代 模 型 ， 因 为 它 可 以 
模拟 任何 数据 分 布 方式 。 它 是 目前 发 展 最 迅速 的 机 器 学 习 (machine learning，ML ) 领域 之 一 ， 
并 且 有 很 多 相关 的 重要 研发 工作 正在 开展 。 本 书 将 介绍 神经 网 络 模型 无 监督 训练 的 相关 技术 , 华 
领 读 者 从 零 开 始 构建 7 个 完整 的 GAN 项 目 。 


本 书 首先 介绍 构建 高 效 项 目 所 涉及 的 概念 、 工 具 和 库 , 其 后 不 同 的 项 目 会 用 到 不 同类 型 的 数 
据 集 。 每 一 章 在 复杂 程度 和 操作 难度 上 都 逐步 提升 ， 最 终 帮助 读者 熟练 掌握 GAN。 

本 书 将 介绍 3D-GAN 、DCGAN 、StackGAN 、CycleGAN 等 流行 技术 ， 并 且 通 过 实际 实现 来 
蛙 解 生成 模型 的 架构 和 功能 。 


本 书 则 在 介绍 如 何在 工作 或 项 目 中 构建 、 训 练 并 优化 完整 的 GAN 模型 。 


读者 对 象 


本 书 适合 数据 科学 家 、 机 器 学 习 开 发 者 、 深 度 学 习 从 业者 ， 以 及 希望 通过 项 目 指南 构建 实际 
的 GAN 模型 来 检验 自己 的 知识 和 专业 技能 的 AI 爱好 者 阅读 。 


本 书 内 容 


第 1 章 ， 生 成 对 抗 网 络 简 介 。 这 一 章 首先 介绍 GAN 相关 概念 ， 包 括 判 别 网 络 、 生 成 网 络 、 
博弈 论 等 。 然 后 介绍 生成 网 络 和 判别 网 络 的 架构 与 目标 函数 、GAN 的 训练 算法 、Kullback-Leibler 
散 度 和 Jensen-Shannon 散 度 、GAN 的 评估 和 矩阵、GAN 存在 的 各 种 问题 、 梯 度 消失 和 梯度 爆炸 问 
题 、 纳 什 均衡 、 批 归 一 化 ， 以 及 GAN 正则 化 。 


第 2 章 ， 使 用 3D-GAN 生成 图 形 。 这 一 章 简单 介绍 3D-GAN 和 其 架构 细节 。 这 一 章 会 训练 
一 个 可 以 生成 现实 世界 3D 图 形 的 3D-GAN。 编 写 代 码 获 取 3D ShapeNets 数据 集 ， 进 行 数据 清洗 
和 训练 预 处 理 后 ， 使 用 深度 学 习 库 Keras 构建 3D-GAN 模型 。 


‘tt 


第 3 章 ， 使 用 cGAN 实现 人 脸 老 化 。 这 一 章 介 绍 cGAN ( conditional generative adversarial 


network， 条 件 生成 对 抗 网 络 ) 和 Age-cGAN。 首 先 介绍 数据 准备 过 程 ， 包 括 数据 下 载 、 数 据 清 
洗 以 及 数据 格式 处 理 。 届 时 会 用 到 IMDb Wiki Images 数据 集 。 然 后 编写 代码 ， 使 用 Keras 框架 构 
建 一 个 Age-cGAN 模型 ， 并 在 IMDb Wiki Images 数据 集 上 进行 训练 。 最 后 ， 用 训练 好 的 模型 生 
成 图 片 ， 只 需 输 入 年 龄 作为 参数 ， 模 型 就 可 以 生成 一 个 人 在 不 同年 龄 的 面部 图 像 。 


第 4 章 , 使 用 DCGAN 生成 动画 人 物 。 这 一 章 首先 介绍 DCGAN 以 及 数据 准备 过 程 ,包括 获 
取 动 画 人 物 的 数据 集 、 数 据 清 洗 以 及 训练 预 处 理 。 我 们 会 在 Jupyter Notebook 内 使 用 Keras 构建 
一 个 DCGAN 模型 。 然 后 介绍 训练 DCGAN 的 各 种 技术 ,以 及 超 参 数 调 优 。 最 后 使 用 训练 好 的 模 
型 生成 动画 人 物 ， 并 讨论 DCGAN 的 实际 应 用 。 


第 5 章 , 使 用 SRGAN 生成 逼真 图 像 。 这 一 章 介 绍 如 何 训练 SRGAN 生成 逼真 图 像 。 训 练 流 
程 的 第 一 步 是 收集 数据 集 ， 然 后 是 数据 清洗 和 数据 格式 处 理 。 这 一 竟 会 介绍 如 何 收集 数据 集 、 清 
洗 数据 ， 以 及 将 数据 处 理 成 训练 所 需 的 格式 。 


第 6 章 ，StackGAN: 基于 文本 合成 逼真 图 像 。 这 一 章 首先 介绍 StackGAN ， 然 后 介绍 如 何 
收集 数据 集 清理 数据 以 及 转换 数据 格式 。 数 据 准 备 好 后 ,在 JupyterNotebook 内 编写 代码 用 Keras 
构建 StackGAN, 并 在 CUB 数据 集 上 训练 该 模型 。 训 练 好 的 模型 可 以 基于 文本 生成 逼真 图 像 。 最 
后 讨论 StackGAN 在 行业 中 的 应 用 ， 以 及 在 生产 环境 中 的 部 署 。 


第 7 章 ， 使 用 CycleGAN 将 绘画 转换 为 照片 。 这 一 章 介绍 如 何 训练 一 个 CycleGAN 模型 将 
绘画 转换 为 照片 。 首 先 介绍 CycleGAN 及 其 各 种 用 法 ， 然 后 讲解 数据 收集 、 数 据 清洗 和 数据 格 
式 处 理 的 各 种 技术 ， 接 着 在 Jupyter Notebook 内 使 用 Keras 构建 CycleGAN ， 并 在 预备 好 的 数据 
集 上 训练 CycleGAN 模型 ， 之 后 检验 模型 将 绘画 转换 为 照片 的 水 平 ， 最 后 介绍 CycleGAN 的 实 
际 应 用 。 


第 8 章 ， 使 用 cGAN 实现 图 像 对 图 像 变 换 。 这 一 章 介 绍 如 何 训练 cGAN 来 实现 图 像 对 图 像 
变换 。 首 先 介绍 cGAN 和 各 种 数据 处 理 技术 ,包括 数据 收集 、 数 据 清 洗 和 数据 格式 处 理 ， 接 着 在 
Jupyter Notebook 内 使 用 Keras 构建 cGAN， 然后 介绍 如 何在 预备 好 的 数据 集 上 训练 cGAN。 训 练 
中 会 尝试 不 同 的 超 参 数 。 最 后 测试 GAN ， 并 讨论 图 像 对 图 像 变 换 的 实际 应 用 。 


第 9 章 ， 预 测 GAN 的 未 来 。 介 绍 过 GAN 的 基本 原理 并 且 完 成 了 7 个 项 目 之 后 ， 最 后 这 一 
章 来 预测 GAN 的 前 景 : 首先 介绍 近 几 年 GAN 应 用 所 取得 的 成 就 和 受 欢迎 程度 ， 然 后 谈 一 下 我 
对 GAN 未 来 的 看 法 。 


如 何 使 用 本 书 


阅读 本 书 需 要 熟悉 深度 学 习 和 Keras， 并 对 TensorFlow 有 一 定 了 解 。 如 果 有 Python 3 的 编程 
经 验 会 更 好 。 


下 载 示例 代码 文件 


如 果 你 是 从 http:/www.packtpub.com 网 站 购买 的 图 书 , 登录 自己 的 账号 后 就 可 以 下 载 所 有 已 
购 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 图 书 ， 请 访问 http:/www.packtpub.com/support 
网 站 并 注册 ， 我 们 会 将 代码 文件 直接 发 送 到 你 的 电子 邮箱 。 


你 可 以 通过 以 下 步骤 下 载 代码 文件 。 
(1) 在 我 们 的 网 站 上 登录 或 注册 。 
(2) 选择 SUPPORT 标签 。 
(3) 点 击 Code Downloads & Errata。 
(4) 在 Search 框 中 输入 书 名 并 按 屏 幕 上 的 提示 操作 。 
文件 下 载 后 ， 使 用 以 下 工具 的 最 新 版 本 来 解压 缩 或 提取 文件 夹 。 


口 WinRAR/7-Zip ( Windows ) 
OD Zipeg/iZip/UnRarX ( Mac ) 
DO 7-Zip/PeaZip (Linux ) 


本 书 代码 也 托管 在 GitHub 上 , 访问 https://github.com/PacktPublishing/Generative-Adversarial- 
Networks-Projects 即 可 获取 "。Packt 拥有 丰富 的 图 书 和 视频 资源 ， 相 关 代 码 见 GitHub 仓库 : 
https:/github.com/PacktPublishing/。 欢 迎 查 阅 ! 


排版 约定 
本 书 使 用 了 多 种 文本 样式 。 


正文 中 的 代码 采用 以 下 样式 :“ 使 用 scipy 的 1oadmat ( ) 函数 来 检索 体 素 。 
代码 块 的 样式 如 下 所 示 。 


import scipy.io as io 
voxels = io.loadmat ("path to .mat file")['instance'] 


命令 行 输入 或 输出 如 下 所 示 。 
pip install -r requirements.txt 


黑体 字 : 用 于 新 术语 或 重要 的 词语 。 


Qa 可 以 直接 访问 本 书 中 文 版 页 面 ， 下 载 本 书 项 目的 源 代码 ，http://www.ituring.com.cn/book/2681。 一 一 编者 注 


和 此 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 


人 此 图 标 表示 提示 或 技巧 。 
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生成 对 抓 网 络 简介 


本 章 介绍 生成 对 抗 网 络 ( GAN )， 这 是 一 种 使 用 无 监督 机 器 学 习 算 法 生成 数据 的 深度 神经 网 
络 架 构 。2014 年 , Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 在 论文 “Generative Adversarial 
Nets” 中 首次 提出 了 GAN。GAN 有 多 种 应 用 ， 包 括 图 像 生成 和 药物 开发 等 。 


本 章 会 介绍 GAN 的 核心 组 件 及 其 工作 原理 、GAN 背后 的 重要 概念 和 技术 、GAN 的 优势 和 
缺陷 ， 以 及 GAN 的 实际 应 用 。 
本 章 将 探讨 以 下 主题 。 
口 什么 是 GAN 
口 GAN 架构 
口 GAN 相关 的 重要 概念 
口 GAN 的 不 同 变 体 
口 GAN 的 优 缺 点 
口 GAN 的 实际 应 用 


1.1 什么 是 GAN 


GAN 是 一 种 由 生成 网 络 和 判别 网 络 组 成 的 深度 神经 网 络 架构 。 通 过 在 生成 和 判别 之 间 多 次 
循环 ， 两 个 网 络 相 互 对 抗 ， 试 图 胜 过 对 方 ， 从 而 训练 了 彼此 。 


1.1.1 什么 是 生成 网 络 


生成 网 络 使 用 现 有 数据 生成 新 数据 ， 比 如 使 用 现 有 图 像 来 生成 新 图 像 。 生 成 网 络 的 核心 任务 
是 从 随机 生成 的 由 数字 构成 的 向 量 ( 称 为 “潜在 空间 ”，latent space ) 中 生成 数据 ( 比如 图 像 、 
视频 、 音 频 或 文本 )。 在 构建 生成 网 络 时 需要 明确 该 网 络 的 目标 ， 例 如 生成 图 像 、 文 本 、 音 频 、 
视频 ， 等 等 。 


2 第 1 章 生成 对 抗 网 络 简介 


1.1.2 ”什么 是 判别 网 络 


判别 网 络 试图 区 分 真实 数据 和 由 生成 网 络 生成 的 数据 。 对 于 输入 的 数据 , 判别 网 络 需 要 基于 
了 先 定义 的 类 别 对 其 分 类 。 这 可 能 是 多 分 类 或 二 分 类 。 通 常 ，GAN 中 进行 的 是 二 分 类 。 


hl 


1.1.3 GAN 通过 对 抗 竞赛 进行 训练 
GAN 中 的 网 络 通过 对 抗 竞赛 进行 训练 ， 两 个 网 络 互 相 竞争 。 例 如 用 GAN 生成 艺术 品 厅 品 。 


(1) 第 一 个 网 络 ， 即 生成 网 络 ， 并 未 见 过 艺术 品 实物 ， 但 试图 生成 形似 艺术 品 实物 的 作品 。 

(2) 第 二 个 网 络 ， 即 判别 网 络 ， 试 图 判断 一 件 艺术 品 是 真品 还 是 左 品 。 

(3) 生成 网 络 在 不 断 迭 代 中 生成 看 起 来 更 加 真实 的 艺术 品 , 试图 骗 过 判别 网 络 , 让 它 相 信 这 些 
生成 的 腹 品 是 真品 。 

(4) 判别 网 络 不 断 优 化 区 分 真 假 的 标准 ， 试 图 胜 过 生成 网 络 。 

(5) 在 每 轮 迭 代 中 , 它们 会 将 自己 所 做 调整 中 的 成 功 尝试 反馈 给 对 方 , 这 就 是 GAN 的 训练 过 程 。 

(6) 最 终 , 在 判别 网 络 的 帮助 下 ， 生 成 网 络 已 经 训练 得 让 判别 网 络 无 法 区 分 哪 件 是 真品 、 哪 件 
是 腹 品 了 。 


在 该 竞赛 中 ,两 个 网 络 是 同时 受训 的 。 当 判别 网 络 无 法 区 分 真品 和 磺 品 时 ,该 网 络 就 进入 了 
一 种 名 为 “纳什 均衡 ”的 状态 。 本 章 稍 后 会 详 述 。 


1.2 GAN 的 实际 应 用 
GAN 的 一 些 实 际 应 用 非常 实用 ， 例 如 下 面 这 些 。 


口 图 像 生 成 。 在 简单 的 图 像 数据 上 训练 后 的 生成 网 络 可 生成 逼真 的 图 像 。 例 如 想 生成 新 的 
狗 狗 图 像 ， 就 可 以 在 成 二 上 万 的 狗 狗 图 像 的 数据 集 上 训练 一 个 GAN。 训 练 完成 之 后 ， 生 
成 网 络 就 可 以 生成 一 些 不 同 于 训练 集 的 新 图 像 。 图 像 生成 可 用 于 市 场 营销 、logo 制作 、 
娱乐 和 社交 媒体 等 领域 。 下 一 童 会 介绍 动画 人 物 面部 图 像 的 生成 。 

口 文本 到 图 像 的 合成 。GAN 的 一 个 有 趣 应 用 是 基于 文本 生成 图 像 。 这 对 于 电影 行业 来 说 很 
有 用 ， 因 为 GAN 可 以 基于 一 段 文本 生成 新 的 图 像 数据 。 对 于 漫画 行业 ， 它 甚至 可 以 自动 
生成 一 段 故 事 。 

口 人 脸 老 化 。 该 应 用 对 娱乐 行业 和 监控 领域 都 很 有 有 用， 尤其 是 对 于 人 脸 验 证 方面 ， 因 为 企 
业 无 须 在 员工 的 年 龄 增长 之 后 更 新 安防 系统 了 。Age-cGAN 可 以 生成 不 同年 龄 的 图 像 , 可 
用 于 构建 强大 的 人 脸 验 证 模型 。 

口 图 像 到 图 像 的 变换 。 图 像 到 图 像 的 变换 可 用 于 将 白天 拍摄 的 图 像 转换 成 夜晚 拍摄 的 图 像 ， 
将 草图 转换 成 绘画 , 将 图 像 转换 成 毕加索 或 者 焚 高 的 风格 , 将 航拍 图 自动 转换 成 卫星 图 像 ， 
以 及 把 马 的 图 像 转换 成 斑马 的 图 像 ， 等 等 。 这 些 应 用 有 助 于 节约 时 间 ， 非 常 具有 开创 性 。 
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细节 。 这 有 助 于 设计 网 站 。 


1.3 ”GAN 的 具体 架构 


口 视频 合成 。GAN 也 可 以 用 于 生成 视频 。 用 GAN 生成 内 容 快 于 人 工 创作 ， 可 以 提高 电影 
制作 效率 ， 也 能 帮助 那些 希望 在 业余 时 间 制 作 创意 视频 的 爱好 者 。 
口 高 清 图 像 生成 。GAN 可 以 为 用 低 像素 相机 拍摄 的 照片 生成 高 清 版 ， 同 时 不 损失 任何 关键 


口 补 全 缺损 图 像 。 如 果 图 像 缺 失 了 某 些 部 分 ，GAN 可 以 帮助 恢复 。 


GAN 主要 由 两 部 分 构成 : 生成 网 络 和 判别 网 络 。 每 个 网 络 都 可 以 是 任何 神经 网 络 ， 比 如 普 
通 的 人 工 神经 网 络 ( artificial neural network，ANN )、 卷 积 神经 网 络 ( convolutional neural network ， 
CNN )、 循 环 神经 网 络 (recurrent neuralnetwork，RNN ) 或 者 长 短期 记忆 ( long shortterm memory， 
LSTM ) 网 络 。 判 别 网 络 则 需要 一 些 全 连接 层 ， 并 且 以 分 类 器 收尾 。 


下 面 详细 介绍 GAN 架构 的 组 件 。 以 一 个 简单 的 GAN 为 例 。 


1.3.1 生成 网 络 的 架构 


这 个 简单 的 GAN 中 的 生成 网 络 是 一 个 5 层 的 简单 前 馈 神经 网 络 ( feed-forward neural network )， 
含 1 个 输入 层 、3 个 隐藏 层 以 及 1 个 输出 层 ， 具 体 配置 见 表 1-1。 


表 1-1 
层 序 号 层 名 称 配 置 

1 输入 层 oe ne ps od 

2 全 连接 导 人 
全 这 接 有 | 
4 全 省 接 导 人 
5 输出 层 re Ea “98) 

上 表 列 出 了 网 络 中 输入 层 、 隐 藏 层 以 及 输出 层 的 配置 情况 。 


图 1-1 展示 了 生成 网 络 里 的 张 量 ( tensor ) 流 ， 以 及 每 一 层 输入 和 输出 的 张 量 的 形状 。 
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139705749349376 
J 

input: | (None, None, 100) 
output: | (None, None, 500) 
input: | (None, None, 500) 
output: | (None, None, 500) 
input: | (None, None, 500) 
output: | (None, None, 784) 
input: | (None, None, 784) 
output: | (None, 28, 28) 


dense 1:Dense 


dense 2:Dense 


dense 3:Dense 


reshape_ 1:Reshape 


图 1-1 生成 网 络 的 架构 
该 前 馈 神 经 网 络 通过 正 向 传播 处 理 信息 的 过 程 如 下 。 


口 输入 层 从 正 态 分 布 采样 一 个 100 维 的 向 量 ， 不 做 任何 修改 ， 直 接 传递 给 第 一 个 隐藏 层 。 
D 3 个 隐藏 层 分 别 是 具有 500、500 和 784 个 单元 的 全 连接 层 。 第 1 个 隐藏 层 将 一 个 形状 为 
(batch_size，100) 的 张 量 变换 成 (batch_size，500)。 

口 第 2 个 隐藏 层 (基于 上 一 层 输 出 的 结果 ) 将 张 量 形状 变换 为 (batch_size，500)。 

口 第 3 个 隐藏 层 继续 将 张 量 形状 变换 为 (batch_size，784) 。 

口 最 后 的 输出 层 将 张 量 的 形状 从 (batch_size，784) 变 换 为 (batch_size，28，28)。 
这 意味 着 该 神经 网 络 会 生成 一 批 图 像 ， 其 中 每 张 图 像 的 形状 为 (28，28) 


1.3.2 ”判别 网 络 的 架构 


该 GAN 中 的 判别 网 络 是 一 个 5 层 的 前 馈 神 经 网 络 , 包括 1 个 输入 层 、! 个 输出 层 以 及 3 个 全 
连接 层 。 判 别 网 络 是 一 个 分 类 器 ， 和 生成 网 络 有 些 区别 。 它 会 处 理 图 像 ， 然 后 输出 该 图 像 属于 某 
个 类 别 的 概率 。 


图 1-2 展示 了 判别 网 络 中 的 张 量 流 ， 以 及 每 一 层 输 入 和 输出 的 张 量 的 形状 。 
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139906652570288 
J 
input: (None, 28, 28) 
flatten 1:Flatten 
sx output: (None, 784) 
input: (None, 784) 
dense 4:Dense 
- output: (None, 500) 
input: (None, 500) 
dense 5:Dense . 
全 Output: (None, 500) 
input: (None, 500) 
dense 5:Dense 
eo output: (None, 1) 


图 1-2 判别 网 络 的 架构 


判别 网 络 在 训练 过 程 中 利用 正 向 传播 来 处 更 


(1) 首先 读 取 一 个 形状 为 28x28 的 张 量 输入 。 
(2) 输入 层 接收 形状 为 (batch_size，28，28) 的 输入 张 量 ， 不 做 任何 修改 ， 直 接 传递 给 第 


一 个 隐藏 层 ( 扁平 化 层 )。 


数据 的 过 程 如 下 。 


(3) 扁平 化 层 将 该 张 量 转换 成 784 维 , 然后 将 其 传递 给 第 一 个 隐藏 全 连接 层 。 经 过 前 两 个 隐藏 


层 的 处 理 ， 张 量 转换 成 了 500 维 。 


(4) 最 后 一 层 是 输出 层 ， 也 是 全 连接 层 ， 
它 只 输出 0 或 1: 输出 0 意味 着 判别 网 络 认 为 输入 


图 像 是 真 的 。 


1.3.3 ”GAN 相关 重要 概念 


前 面 介 绍 了 GAN 的 架构 ， 下 面 简单 介绍 一 些 重要 概念 。 


只 有 一 个 单元 (神经 元 )， 使 用 sigmoid 激活 函数 。 
图 像 是 假 的 ; 输出 1 意味 着 判别 网 络 认 为 输入 


首先 介绍 KL ( Kullback-Leibler ) 散 


度 和 JS (Jensen-Shannon ) 散 度 ， 它 们 是 评估 模型 质量 的 重要 手段 ; 然后 介绍 纳什 均衡 ， 这 是 在 
训练 过 程 中 希望 达到 的 状态 ; 最 后 重点 介绍 目标 函数 ， 理 解 目 标 函 数 有 助 于 实现 GAN。 


1. KL 散 度 


KL 散 度 ， 也 称 相对 ， 用 于 判定 两 个 概率 分 布 之 间 的 相似 度 。 它 可 以 测量 一 个 概率 分 布 p 


相对 于 男 一 个 概率 分 布 q 的 偏离 。 


如 下 公式 用 于 计算 两 个 概率 分 布 pC 和 q(x) 之 间 的 KL 散 度 。 
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区 p(X) 
Dea (pll9)=| pO) 1og a 
如 果 PCD 和 g(x) 处 处 相等 ， 则 此 时 KL 散 度 为 0， 达 到 最 小 值 。 


由 于 KL 散 度 具有 不 对 称 性 ， 因 此 不 用 于 测量 两 个 概率 分 布 之 间 的 距离 ， 因 此 也 不 用 作 距 离 
的 度量 ( metric )。 


2. JS 散 度 


JS 散 度 , 也 称 信息 半径 (information radius, IRaD ) 或 者 平均 值 总 偏离 (total divergence to the 
average )， 是 测量 两 个 概率 分 布 之 间 相 似 度 的 另 一 种 方法 。 它 基于 KL 散 度 ， 但 具有 对 称 性 ， 可 
用 于 测量 两 个 概率 分 布 之 间 的 距离 。 对 JS 散 度 开 平方 即 可 得 到 JS 距离 , 所 以 它 是 一 种 距离 度量 。 


计算 两 个 概率 分 布 p 和 g 之 间 JS 散 度 的 公式 如 下 。 


1 pt+gq、 1 p+g 
D =—D + 一 DD 二 -一 
gs(CP|9) 7 KI (| ) 7 KI (gq|| 7 ) 


其 中 ，(ptq)2 是 p 和 g 的 中 点 测度 ，Dkr 是 KL 散 度 。 
介绍 过 了 KL 散 度 和 JS 散 度 ， 下 面 介绍 GAN 中 的 纳什 均衡 。 


3. 纳什 均衡 

十 弈 论 中 的 纳什 均衡 描述 了 一 种 在 非 合 作 博 弈 中 可 以 达到 的 特殊 状态 。 其 中 每 个 参与 者 都 试 
图 基于 对 其 他 参与 者 行 为 的 预 判 ， 选择 使 自己 获 益 最 多 的 最 佳 策略 。 最 终 形成 的 局 面 是 ,所 有 参 
与 者 都 基于 其 他 参与 者 的 选择 , 采取 了 对 自己 来 说 最 佳 的 策略 ， 此 时 已 经 无 法 通过 改变 策略 获 益 
了 。 这 种 状态 就 称 为 纳什 均衡 。 


达到 纳什 均衡 的 一 个 著名 例子 是 办 徒 困 境 。 两 名 犯罪 嫌疑 人 (A 和 了 B ) 因为 犯罪 被 逮捕 了 ， 
分 别 关 在 不 同 的 牢房 , 无 法 互相 交流 。 检察 官 的 证 据 只 够 将 他 们 以 较 小 的 罪名 定罪 ,而 无 法 以 主 
要 罪行 定罪 《如 果 可 以 的 话 就 会 在 监狱 里 关 很 久 )。 为 了 能 以 主要 罪行 定罪 ,检察 官 给 他 们 提供 
了 如 下 选择 。 


口 如 果 A 和 B 同时 检举 对 方 的 主要 罪行 ， 他 们 都 会 被 关押 2 年 。 
口 如 果 A 检举 了 B 而 B 选择 保持 沉默 ，A 会 被 直接 释放 ， 而 B 会 被 关押 3 年 (反之 亦 然 )。 
口 如 果 A 和 B 都 选择 保持 沉默 ， 他 们 会 因为 较 小 罪名 而 都 被 关押 1 年 。 


从 这 3 种 结果 来 看 ， 对 于 A、B 两 人 整体 而 言 ， 最 佳 结果 显然 是 都 选择 保持 沉默 ， 然 后 都 被 
关押 1 年。 然而 选择 保持 沉默 的 风险 在 于 ， 他 俩 都 不 知道 对 方 是 否 也 会 选择 保持 沉默 。 这 样 对 于 
两 人 来 说 最 佳 策略 其 实 是 检举 对 方 , 因为 在 任何 情况 下 这 样 做 都 是 好 处 更 大 而 惩罚 更 小 。 这 样 的 
局 面 一 旦 形成 ， 任 何 罪犯 都 无 法 通过 改变 策略 来 获得 任何 好 处 ， 也 就 达到 了 纳什 均衡 。 


一 
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4. 目标 函数 | 


为 了 使 生成 网 络 生成 的 图 像 能 以 假 乱 真 , 应 尽量 提高 生成 网 络 所 生成 数据 和 真实 数据 之 间 的 
相似 度 。 可 使 用 目标 函数 测量 这 种 相似 度 。 生 成 网 络 和 判别 网 络 各 有 目标 函数 ,训练 过 程 中 也 分 
别 试图 最 小 化 各 自 的 目标 函数 。GAN 最 终 的 目标 函数 如 下 所 示 。 


min max V(D,G)=E,, wllog D(H+E,., llog(l— D(G(z)))] 


其 中 ，DQ) 是 判别 网 络 模 型 ，G(z) 是 生成 网 络 模型 ，p(x) 是 真实 数据 分 布 ，p(z) 是 生成 网 络 生成 的 
数据 分 布 ，E 是 期 望 输出 。 


在 训练 过 程 中 , D (判别 网 络 ，discriminator ) 试图 最 大 化 公式 的 最 终 取 值 , 而 G ( 生成 网 络 ， 
generator ) 试图 最 小 化 该 值 。 如 此 训练 出 来 的 GAN 中 ， 生 成 网 络 和 判别 网 络 之 间 会 达到 一 种 平 
衡 ， 此 时 模型 即 “ 收 敛 ” 了 。 这 种 平衡 状态 就 是 纳什 均衡 。 训 练 完成 之 后 ， 就 得 到 了 一 个 可 以 生 
成 逼真 图 像 的 生成 网 络 。 


1.3.4 评分 算法 


GAN 的 准确 度 容易 计算 。GAN 的 目标 函数 不 是 均 方 误差 (mean-square error ) 或 者 交叉 信 
(cross entropy ) 这 样 确定 的 函数 ， 而 是 在 训练 过 程 中 习 得 的 。 研 究 者 们 提出 了 多 种 可 以 测量 模型 
准确 度 的 评分 算法 ， 下 面 介绍 其 中 几 个 。 


1. Inception 分 数 


Inception 分 数 (IS ) 是 应 用 最 广泛 的 GAN 评分 算法 。 它 使 用 一 个 在 Imagenet 上 预 训练 过 的 
Inception V3 网 络 分 别提 取 真 实 图 像 和 生成 图 像 的 特征 。Shane Barrat 和 Rishi Sharma 在 论文 “A 
Note on the Inception Score” 中 首次 提出 了 该 方法 。IS 测量 生成 图 片 的 质量 和 多 样 性 。 计 算 IS 的 
公式 如 下 。 


IS(G)= exp(B,, Dr (p(y 12) 1 p(y)) 


其 中 ，p。 表 示 一 个 概率 分 布 ，x~ps 表 示 x 是 该 概率 分 布 中 的 一 个 抽样 。p(y | 加 是 条 件 类 别 分 布 ， 
PO) 是 边缘 类 别 分 布 。 


计算 Inception 分 数 的 步骤 如 下 。 


(1) 首先 从 模型 生成 的 图 像 中 抽取 NW 个 样本 ， 记 为 )。 
(2) 然后 使 用 如 下 公式 构建 边缘 类 别 分 布 。 


pO)=| p12)p(%) 
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(3) 接着 使 用 如 下 公式 计算 KL 散 度 以 及 期 望 值 。 
IS(G) = exp(B;.,, Dri (p(y |)1 Pp(7)) 
(4) 最 后 计算 上 述 结果 的 指数 ， 即 可 得 到 IS。 


IS 越 高 ， 说 明 模型 质量 越 好 。IS 虽然 是 重要 的 测度 ( measure )， 却 也 存在 一 些 问题 。 比 如 模 
型 对 于 每 个 类 别 只 生成 一 张 图 像 ， 其 IS 仍然 可 以 很 高 ， 但 这 样 的 模型 缺乏 多 样 性 。 为 了 解决 该 
问题 ， 人 们 又 提出 了 其 他 一 些 性 能 测度 ， 稍 后 会 介绍 其 中 一 种 。 


2. Fréchet Inception 距离 


为 了 克服 Inception 分 数 的 一 些 缺 陷 ，Martin Heusel 等 人 在 论文 “GANSs Trained by a Two 
Time-Scale Update Rule Converge to a Local Nash Equilibrium” 中 提出 了 Fréchet Inception 距离 
( Fréchet Inception Distance, FID )。 


计算 FID 分 数 的 公式 如 下 。 


FD=| -pl + TG, +2, -2C,2,)) 


上 面 的 公式 表示 真实 图 像 集 x 和 生成 图 像 集 g 之 间 的 FID 分 数 。 要 计算 FID 分 数 , 首先 抽取 
Inception 网 络 的 一 个 中 间 层 的 特征 上 映射， 构建 一 个 多 元 正 态 分 布 来 学 习 这 些 特 征 映射 的 概率 分 
布 , 然后 使 用 该 多 元 正 态 分 布 的 均值 y 和 协 方差 来 计算 FID 分 数 。FID 分 数 越 低 ， 说 明 模 型 的 
质量 越 好 , 其 生成 多 样 化 的 、 高 质量 的 图 像 的 能 力 就 越 强 。 完美 的 生成 模型 的 FID 分 数 应 该 为 0。 
FID 分 数 优 于 IS 之 处 在 于 对 噪声 的 抵抗 力 较 好 ， 并 且 可 以 更 好 地 测量 图 像 的 多 样 性 。 


关于 FID 的 TensorFlow 实现 ,可 访问 https://www.tensorflow.org/api docs/python/tf/ 
人 contrib/gan/eval/frechet_classifier distance。 学 术 界 和 业界 的 研究 者 还 提出 了 其 他 
评分 算法 , 本 书 没有 涉及 。 继续 下 面 的 内 容 之 前 , 请 先 了 解 评分 算法 Mode 分 数 。 


1.4 ”GAN 变 体 


目前 ，GAN 的 变 体 数 以 千 计 ， 并 且 这 个 数字 还 在 快速 增长 。 下 面 简单 介绍 6 种 流行 的 GAN 
架构 ， 后 续 章节 会 详 述 。 


1.4.1 深度 卷 积 生成 对 抗 网 络 


Alec Radford Luke Metz 和 Soumith Chintala 在 论文 “Unsupervised Representation Learning with 
Deep Convolutional Generative Adversarial Networks” 中 首次 提出 了 深度 卷 积 生成 对 抗 网 络 ( deep 
convolutional GAN，DCGAN )。 普 通 GAN 通常 不 包含 CNN，DCGAN 将 其 引入 了 GAN。 第 3 
章 会 介绍 如 何 使 用 DCGAN 生成 动画 人 物 面部 图 像 。 
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1.4.2 StackGAN 


StackGAN 是 由 Han Zhang、Tao Xu、Hongsheng Li 等 人 在 论文 “StackGAN: Text to Photo- 
Realistic Image Synthesis with Stacked Generative Adversarial Networks” 中 首次 提出 的 。 他 们 使 用 
StackGAN 进行 文本 到 图 像 的 合成 , 效果 极 佳 。StackGAN 可 以 基于 文本 生成 逼真 图 像 。 第 6 章 会 
介绍 如 何 使 用 StackGAN 基于 文本 生成 逼真 的 图 像 。 


1.4.3 CycleGAN 


CycleGAN 是 由 Jun-Yan Zhu、Taesung Park、Phillip Isola 和 Alexei A. Efros 在 论文 “Unpaired 
Image-to-Image Translation using Cycle-Consistent Adversarial Networks” 中 首次 提出 的 。CycleGAN 
有 一 些 非 常 有 趣 的 应 用 ， 例 如 将 照片 转换 成 绘画 ( 或 者 反 过 来 )， 将 夏天 拍摄 的 照片 转换 成 冬天 
拍摄 的 照片 〈 或 者 反 过 来 )， 以 及 将 马 的 图 像 转换 为 斑马 的 图 像 (或 者 反 过 来 ), 第 7 章 会 介绍 如 
何 使 用 CycleGAN 将 绘画 转换 成 照片 。 


1.4.4 3D-GAN 


3D-GAN 是 由 Jiajun Wu、Chengkai Zhang、Tianfan Xue、William T. Freeman 以 及 Joshua B. 
Tenenbaum 在 论文 “Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial 
Modeling” 中 首次 提出 的 。 生 成 物体 的 3D 模型 在 制造 业 和 3D 模型 产业 都 有 广泛 用 途 。 在 物体 的 
3D 模型 数据 上 训练 之 后 ，3D-GAN 可 以 为 不 同 物体 生成 新 的 3D 模型 。 第 2 章 会 介绍 如 何 使 用 
3D-GAN 生成 物体 的 3D 模型 。 


1.4.5 Age-cGAN 


Age-cGAN 是 由 Grigory Antipov、Moez Baccouche 和 Jean-Luc Dugelay 在 论文 “Face Aging with 
Conditional Generative Adversarial Networks” 中 首次 提出 的 。 人 脸 老化 用 途 广泛 ,包括 跨 年 龄 人 脸 识 
别 、 找 寻 失 踪 儿 童 以 及 娱乐 应 用 等 。 第 3 章 会 介绍 如 何 训练 可 以 生成 特定 年 龄 的 人 脸 图 像 的 cGAN。 


1.4.6 pix2pix 


pix2pix 是 由 Phillip Isola 、Jun-Yan Zhu、Tinghui Zhou 和 Alexei A. Efros 在 论文 “Image-to-Image 
Translation with Conditional Adversarial Networks” 中 首次 提出 的 。pix2pix 网 络 和 CycleGAN 有 相似 的 
应 用 ， 可 以 将 建筑 标签 转换 成 建筑 图 像 (第 8 章 有 相关 示例 )， 将 黑白 图 像 转换 成 彩色 图 像 ， 将 白 
天 拍摄 的 照片 转换 成 夜间 拍摄 的 照片 ， 将 草图 转换 成 照片 ， 以 及 将 航拍 图 像 转换 成 地 图 图 像 。 


如 感 兴趣 ， 可 阅读 Avinash Hindupur 的 文章 “GAN Zoo”， 里 面 列举 了 现 有 的 所 
有 GAN。 
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1.5 ”GAN 的 优势 
相 比 其 他 监督 学 习 方 法 或 者 无 监督 学 习 方 法 ，GAN 的 优势 如 下 。 


口 GAN 是 无 监督 学 习 方 法 。 带 标注 数据 需要 人 工 制作 , 非常 耗 时 。 GAN 不 需要 带 标注 数据 ， 

而 可 以 通过 无 标注 数据 进行 训练 ， 学 习 数 据 的 内 在 表现 形式 。 

口 GAN 可 以 生成 数据 。GAN 可 以 生成 能 跟 真 实数 据 媲美 的 数据 ， 应 用 潜力 巨大 。GAN 可 
以 生成 图 像 、 文 本 、 音 频 和 视频 等 ， 并且 和 真实 数据 相差 无 几 。 用 GAN 生成 图 像 可 应 用 
于 市 场 营销 、 电 子 商 务 、 游 戏 、 广 告 等 很 多 行业 。 

口 GAN 可 以 学 习 数 据 的 概率 密度 分 布 。GAN 可 以 学 习 数 据 的 内 在 表现 形式 。 前 面 提 到 了 

GAN 可 以 学 习 混 乱 而 复杂 的 数据 概率 分 布 ， 有 助 于 解决 机 器 学 习 领 域 的 很 多 问题 。 

口 训练 后 的 判别 网 络 是 分 类 器 。GAN 训练 完成 之 后 会 得 到 一 个 判别 网 络 和 一 个 生成 网 络 ， 

而 判别 网 络 可 用 作 分 类 需 。 


1.6 训练 GAN 的 问题 


像 很 多 技术 那样 ，GAN 也 存在 一 些 问题 。 这 些 问题 通常 与 训练 过 程 有 关 ， 包 括 模式 塌陷 、 
内 部 协 变量 转移 以 及 梯度 消失 等 。 下 面具 体 探讨 这 些 问 题 。 


1.6.1 模式 塌陷 


模式 塌陷 问题 指 的 是 生成 网 络 所 生成 的 样本 之 间 差 异 不 大 ， 有 时 甚至 始终 只 生成 同样 的 图 
像 。 有 一 些 概 率 分 布 是 多 峰 的 (multimodal ), 构造 十 分 复杂 。 数据 可 能 是 通过 不 同类 型 的 观测 得 
来 的 , 因此 样本 中 可 能 会 暗含 一 些 细 类 ,每 个 细 类 下 的 样本 之 间 比 较 相 似 。 这 样 会 导致 数据 的 概 
率 分 布 出 现 多 个 “ 峰 "， 每 个 峰 对 应 一 个 细 类 。 如 果 数 据 的 概率 分 布 是 多 峰 的 ，GAN 有 时 就 会 出 
现 模 式 塌陷 问题 ， 无 法 成 功 构 建 模型 。 如 果 生 成 的 所 有 样本 几乎 都 相同 ， 这 种 情况 就 被 称 为 “ 完 
全 塌陷 ”。 


解决 模式 塌陷 问题 有 多 种 方法 ， 例 如 : 


口 针对 不 同 的 峰 训练 不 同 的 GAN 模型 ; 
口 使 用 多 样 化 的 数据 训练 GAN。 


1.6.2 ”梯度 消失 

在 反 向 传播 过 程 中 , 梯度 从 最 后 一 层 反 向 流动 到 第 一 层 , 并 且 会 越 来 越 小 。 有 时 梯度 过 小 会 
导致 前 几 层 的 学 习 速 度 非常 慢 , 或 者 根本 无 法 学 习 。 在 这 种 情况 下 ,梯度 无 法 改变 前 几 层 的 权重 
值 ， 所 以 网 络 前 几 层 的 训练 没有 任何 效果 。 该 问题 称 作 梯 度 消失 。 
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如 果 使 用 基于 梯度 的 优化 方法 训练 更 大 的 神经 网 络 , 问题 会 更 严重 。 基 于 梯度 的 优化 方法 是 
通过 计算 参数 值 上 的 小 幅 变 动 对 神经 网 络 输 出 的 影响 来 优化 参数 的 。 如 果 参 数值 的 变动 对 神经 网 
络 的 输出 影响 非常 小 ， 优 化 算法 对 参数 值 的 调整 也 会 很 小 ， 所 以 神经 网 络 的 学 习 就 停滞 了 。 


使 用 像 sigmoid 和 tanh 这 样 的 激活 函数 ， 梯 度 消 失 问题 同样 会 存在 。sigmoid 激活 函数 将 输 
出 值 限定 在 0 到 1， 较 大 的 输入 会 映射 为 接近 1 的 数值 ， 较 小 的 输入 或 者 负数 输入 会 映射 为 接近 
0 的 数值 。 类 似 地 ，tanh 激活 函数 将 输出 值 限 定 在 -1 到 1， 较 大 的 输入 会 映射 为 接近 1 的 数值 ， 
较 小 的 数值 会 映射 为 接近 -1 的 数值 。 反 向 传播 过 程 需 要 用 到 微分 上 的 链 式 法 则 ， 会 产生 乘 数 效 
应 。 当 反 向 传播 到 达 神 经 网 络 的 前 几 层 的 时 候 ， 梯 度 已 经 非常 小 了 ， 就 会 出 现 梯 度 消失 的 问题 。 

为 了 解决 该 问题 ， 可 以 使 用 ReLU、LeakyReLU 或 者 PReLU 等 激活 函数 。 这 些 激活 函数 的 


梯度 不 会 在 反 向 传播 过 程 中 被 耗 散 掉 , 因此 可 以 有 效 训 练 神经 网 络 。 另 一 个 解决 办 法 是 使 用 批 归 
一 化 ， 该 方法 对 网 络 中 隐藏 层 接 收 的 输入 先进 行 归 一 化 ， 然 后 才 传递 给 隐藏 层 。 


1.6.3 ”内 部 协 变量 转移 


内 部 协 变量 转移 问题 之 所 以 产生 , 是 因为 神经 网 络 输入 数据 的 概率 分 布 发 生 了 变化 。 输入 数 
据 的 概率 分 布 改变 之 后 ， 隐 藏 层 会 试图 适应 新 的 概率 分 布 ,训练 速度 因此 放 缓 ， 需 要 很 长 时 间 才 
会 收敛 到 全 局 最 小 值 。 神 经 网 络 输入 数据 的 概率 分 布 和 该 网 络 之 前 接触 的 数据 概率 分 布 之 间 差 异 
过 大 是 问题 根源 。 解 决 方法 包括 批 归 一 化 以 及 其 他 归 一 化 技术 ， 下 面 会 探讨 这 些 技术 。 


1.7 解决 GAN 训练 稳定 性 问题 


GAN 可 能 出 现 训练 不 稳定 的 问题 , 严重 时 会 导致 GAN 永远 无 法 在 某 些 数据 集 上 收敛 。 下面 
介绍 可 以 提高 GAN 稳定 性 的 一 些 办 法 。 


1.7.1 ”特征 匹配 


在 GAN 的 训练 过 程 中 ,判别 网 络 的 目标 函数 需要 最 大 化 ， 而 生成 网 络 的 目标 函数 需要 最 小 
化 。 这 样 的 目标 函数 存在 一 些 严重 的 缺陷 ， 比 如 没有 考虑 生成 数据 和 真实 数据 的 分 布 特征 。 


特征 匹配 是 Tim Salimans 和 Ian Goodfellow 等 人 在 论文 “Improved Techniques for Training 
GANs” 中 首次 提出 的 技术 ， 引 入 了 一 种 新 的 目标 函数 来 提高 GAN 的 收敛 能 力 。 使 用 新 的 目标 
函数 ， 便 于 生成 网 络 生成 在 分 布 特征 上 和 真实 数据 更 为 接近 的 数据 。 


在 特征 映射 技术 中 ,判别 网 络 不 再 输出 二 元 标签 ,而 改 为 输出 某 个 中 间 层 对 于 输入 数据 的 “ 激 
活 映射 ”， 也 称 “ 特 征 映 射 ”。 这样 可 以 训练 判别 网 络 学 习 真 实数 据 的 分 布 特征 , 并 且 使 用 这 些 特 
征 来 区 分 真实 数据 和 虚假 数据 。 
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首先 引入 一 些 计 法 ， 以 便 从 数学 上 讲解 该 方法 。 


口 fx): 判别 网 络 某 中 间 层 对 于 真实 数据 的 激活 映射 或 者 特征 映射 。 
口 AG(z)): 判别 网 络 某 中 间 层 对 于 生成 网 络 生成 的 数据 的 激活 映射 或 者 特征 映射 。 


新 的 目标 函数 如 下 所 示 。 


| yf (7) — ec 


使 用 该 目标 函数 可 以 获得 更 好 的 结果 ， 但 不 能 保证 收敛 。 


1.7.2 ”小 批量 判别 


小 批量 判别 也 能 让 GAN 训练 更 稳定 。 该 方法 由 Ian Goodfellow 等 人 在 论文 “Improved 
Techniques for Training GANs” 中 首次 提出 。 介 绍 该 方法 之 前 ， 先 说 明 该 方法 所 解决 的 问题 。 训 
练 GAN 的 过 程 中 ， 如 果 判 别 网 络 接收 的 输入 图 像 彼此 不 相关 ， 它 们 的 梯度 之 间 无 法 产生 联系 ， 
判别 网 络 就 无 法 学 习 如 何 区 分 生成 网 络 生成 的 不 同 种 类 的 图 像 。 这 会 导致 前 面 介绍 过 的 模式 塌陷 
问题 "。 小 批量 判别 可 以 解决 该 问题 。 图 1-3 很 好 地 展现 了 该 过 程 。 


| 

A M | 0] 

= NE ci(X1,X2) 
7 | 

六 M, | > o， 
si oe 
一 

bi M, | > Oj, 


图 1-3 通过 小 批量 判别 解决 模式 塌陷 
小 批量 判别 是 一 个 多 步骤 过 程 。 为 神经 网 络 添加 小 批量 判别 的 步骤 如 下 。 


(1) 抽取 样本 的 特征 映射 ， 然 后 乘 以 张 量 了 e R~” ， 得 到 矩阵 M, e R*?。 
(2) 使 用 如 下 公式 计算 1 矩阵 各 行 之 间 的 LI1 距 离 。 


Cs (%,, Xx)) 一 expC-|M, -M,,l,) eR 


@ 因为 生成 网 络 得 不 到 判别 网 络 的 相应 反馈 ， 也 就 不 知道 如 何 生 成 多 样 化 的 图 像 。 一 一 译 者 注 
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(3) 对 于 某 个 输入 数据 x;， 计 算 步骤 (2) 得 到 的 所 有 距离 之 和 。 el 


0(%), = 2c, (Xi, Xx)) eR 
j=1 


(4) 将 o(x) 和 x) 拼接 起 来 ， 作 为 输入 传递 给 神经 网 络 的 下 一 层 。 
oo) =[0(x;)i, 0(X;),,**,0(X)s]e R” 
o(X)eR™® 
为 了 从 数学 上 理解 ， 下 面具 体 解 释 这 些 表达 式 。 


口 fx): 判别 网 络 某 个 中 间 层 对 于 第 i 个 样本 的 激活 映射 或 者 特征 映射 。 
口 7 eR” : 一 个 三 维 张 量 ， 用 于 和 .oo) 相 乘 。 

口 M, sR 人 2 : 张 量 7 和 .co) 相 乘 生成 的 矩阵 。 

口 ox): 对 于 某 样本 x;， 计 算 其 M; 所 有 行 之 间 Ll 距离 之 和 。 


小 批量 判别 有 助 于 避免 峰 骨 塌 ， 提 高 训练 的 稳定 性 。 


1.7.3 ”历史 平均 


历史 平均 计算 历史 参数 的 平均 值 ， 然 后 将 该 值 分 别 加 入 生成 网 络 和 判别 网 络 的 成 本 函数 中 。 
该 方法 是 由 Ian Goodfellow 等 人 在 论文 “Improved Techniques for Training GANs” 中 首次 提出 的 。 


计算 历史 平均 的 公式 如 下 。 


2 


pa 


公式 中 的 9[i] 是 全 部 参数 在 某 一 时 刻 i 的 取 值 。 该 方法 也 可 以 提高 GAN 的 稳定 性 。 


1.7.4 单 面 标签 平滑 


在 之 前 的 例子 中 , 分 类 器 的 标签 ( 即 目 标 值 ) 只 可 取 0 或 者 1, 0 代表 假 图 像 , 1 代表 真 图 像 。 
在 这 样 的 设 定 下 ，GAN 很 容易 受到 对 抗 样本 问题 的 影响 。 对 抗 样本 是 一 种 特殊 的 输入 数据 ， 如 
果 在 输入 数据 中 受 加 对 抗 样本 ,原本 可 以 正常 进行 分 类 的 神经 网 络 会 产生 错误 的 分 类 结果 。 标签 
平滑 技术 可 以 为 判别 网 络 提供 平滑 后 的 标签 ， 比 如 使 用 0.9 ( 真 )、0.8( 真 )、0.1 ( 假 ) 或 者 0.2 
〈 假 )， 而 不 是 对 所 有 样本 都 标注 1 ( 真 ) 或 者 0 ( 假 )。 真 图 像 和 假 图 像 的 目标 值 ( 标签 值 ) 都 需 
要 进行 平滑 处 理 。 标 签 平滑 有 助 于 降低 GAN 出 现 对 抗 样本 的 风险 。 具 体 做 法 是 为 图 像 标 注 0.9、 
0.8、0.7 以 及 0.1、0.2、0.3 等 标签 。 关 于 标签 平滑 的 更 多 信息 ， 可 参考 论文 “Improved Techniques 
for Training GANS 。 
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1.7.5 批 归 一 化 


批 归 一 化 技术 是 将 特征 向 量 归 一 化 ,使 其 均值 为 0, 方差 为 1。 该 技术 可 提高 学 习 过 程 的 稳 
定性 , 以 及 解决 权重 值 初始 化 效果 差 的 问题 。 将 该 技术 作为 预 处 理 步骤 应 用 于 神经 网 络 的 隐藏 层 ， 
有 助 于 缓解 内 部 协 变量 转移 的 问题 。 


批 归 一 化 是 在 2015 年 由 Ioffe 和 Szegedy 在 论文 “Batch Normalization: Accelerating Deep 
Network Training by Reducing Internal Covariate Shiff ”中 首次 提出 的 。 


批 归 一 化 的 优势 如 下 。 


D 缓解 内 部 协 变量 转移 问题 。 批 归 一 化 可 以 通过 数值 归 一 化 缓解 内 部 协 变量 转移 问题 。 

口 加 速 训练 。 如 果 神 经 网 络 接收 的 输入 值 呈 正 态 分 布 ， 那 么 可 提高 该 网 络 的 训练 速度 。 批 
归 一 化 可 以 提升 神经 网 络 内 部 各 层 所 接收 数值 的 质量 ， 提 高 训练 的 整体 速度 〈 不 过 由 于 
添加 了 额外 的 计算 ,每 轮 迭 代 会 变 慢 )。 

口 提高 准确 性 。 批 归 一 化 可 以 提高 模型 的 准确 性 。 

口 提高 学 习 速率 。 神 经 网 络 通常 需要 使 用 较 低 的 学 习 速 率 训练 ， 需 要 很 长 时 间 才 会 收敛 。 

借助 批 归 一 化 ， 可 以 采用 更 高 的 学 习 速 率 ,使 神经 网 络 更 快 地 达到 全 局 最 小 值 。 

口 减少 对 随机 失 活 技术 的 依赖 。 使 用 随机 失 活 会 损失 神经 网 络 内 部 各 层 的 一 些 关 键 信息 。 
批 归 一 化 可 以 起 到 正则 项 的 作用 ， 避免 使 用 随机 失 活 层 。 


批 归 一 化 需要 对 所 有 隐藏 层 应 用 ， 而 不 仅仅 是 输入 层 使 用 。 


1.7.6 ”实例 归 一 化 


前 面 提 过 , 批 归 一 化 基于 一 批 数据 的 整体 信息 进行 归 一 化 。 实 例 归 一 化 有 所 不 同 ， 对 一 个 特 
征 映射 进行 归 一 化 时 只 使 用 该 特征 映射 的 信息 ,实例 归 一 化 是 由 Dmitry Ulyanov 和 Andrea Vedaldi 
在 论文 “Instance Normalization: The Missing Ingredient for Fast Stylization” 中 首次 提出 的 。 


1.8 小 结 


本 章 介 绍 了 GAN 、GAN 标准 架构 的 组 件 以 及 GAN 变 体 。 基 于 GAN 的 基本 概念 , 本 章 还 介 
绍 了 有 关 GAN 构建 和 功能 的 深层 概念 、GAN 的 优势 和 缺陷 ， 以 及 克服 缺陷 的 一 些 办 法 ， 最 后 介 
绍 了 GAN 的 各 种 实际 应 用 。 


基于 本 章 讲述 的 GAN 关键 知识 ， 下 一 章 会 介绍 如 何 使 用 GAN 生成 不 同 的 图 形 。 
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使 用 3D-GAN 生成 图 形 


3D-GAN 是 一 种 可 生成 3D 图 形 的 GAN 架构 。 生 成 3D 图 形 特别 复杂 ， 因 为 3D 图 像 处 理 涉 
及 许多 难点 。3D-GAN 能 生成 不 同类 型 的 逼真 3D 图形， 由 Jiajun Wu、Chengkai Zhang 和 Tianfan 
Xue 等 人 在 论文 “Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial 
Modeling” 中 首次 提出 。 本 章 将 使 用 Keras 框架 实现 3D-GAN。 


本 章 将 讨论 以 下 主题 。 


口 3D-GAN 简介 

口 创建 项 目 

口 准备 数据 

口 3D-GAN 的 Keras 实现 
口 训练 3D-GAN 

口 超 参数 优化 

口 3D-GAN 的 实际 应 用 


2.1 3D-GAN 简介 


类 似 于 StackGAN 、CycleGAN 以 及 超 分 辩 率 生成 对 抗 网 络 ( super-resolution generative 
adversarial network，SRGAN )，3D-GAN 也 是 GAN 的 一 个 变 体 。 和 普通 GAN 相同 , 它 具 有 一 个 
生成 网 络 和 一 个 判别 网 络 。 这 两 个 网 络 都 使 用 3D 卷 积 层 而 不 是 2D 卷 积 层 。 如 果 提 供 的 数据 量 
足够 大 ， 它 可 以 学 会 生成 视觉 效果 很 好 的 3D 图 形 。 


深入 探讨 3D-GAN 之 前 ， 先 简单 介绍 一 下 3D 卷 积 。 


2.1.1 3D 卷 积 


简单 说 来 ，3D 卷 积 运算 是 对 输入 数据 在 x、y 和 z 三 个 维度 上 应 用 3D 过 滤 顺 。 该 运算 会 创 
建 一 个 3D 特征 映射 的 堆 苹 列表。 输出 的 形状 类 似 于 一 个 立方 体 或 长 方 体 。 图 2-1 演示 了 一 个 3D 
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卷 积 运算 。 左 边 立 方 体 中 标 亮 的 部 分 是 输入 数据 ， 中 间 是 形状 为 (3，3，3) 的 卷 积 核 ， 右 边 是 卷 
加 运算 的 输出 。 


图 2-1 一 个 3D 卷 积 运算 


介绍 过 了 3D 卷 积 的 基础 知识 ， 下 面 介 绍 3D-GAN 架构 。 


2.1.2 3D-GAN 架构 


3D-GAN 中 的 两 个 神经 网 络 都 是 深度 卷 积 神经 网 络 。 生 成 网 络 仍 是 上 采样 网 络 ， 它 对 噪声 向 
量 (概率 潜在 空间 中 的 一 个 向 量 ) 进行 上 采样 ， 生 成 一 个 和 输入 图 像 在 长 、 宽 、 高 和 通道 上 形状 
相似 的 3D 图 像 。 判 别 网 络 是 下 采样 网 络 ， 通 过 一 系列 3D 卷 积 运算 和 一 个 全 连接 层 来 判断 输入 
数据 的 真 假 。 


下 面 介绍 生成 网 络 和 判别 网 络 的 架构 。 

1. 生成 网 络 的 架构 

生成 网 络 包 含 5 个 体积 型 完全 卷 积 层 ， 配 置 如 下 。 

口 卷 积 层 数量 : 5 

口 过 滤器 数量 : 5312，256，128，64，1 

口 卷 积 核 大 小 : 4x4x4，4x4x4，4x4x4，4x4x4，4x4x4 

口 步 长 : 1，2，2，2，2 或 (1 1), (2,2), (2,2), (2,2), (2,2) 
口 是 否 使 用 批 归 一 化 : 是 , 是， 是 ， 是 ， 否 

口 激活 函数 : ReLU，ReLU，ReLU，ReLU，sigmoid 

口 是 否 使 用 池 化 层 : 否 ， 否 ， 否 ， 否 ， 否 
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口 是 否 是 线性 层 : 否 ， 和 否 ， 和 否 ， 否 ， 否 
生成 网 络 的 输入 和 输出 如 下 。 


口 输入 : 从 概率 潜在 空间 采样 的 200 维 向 量 。 
口 输出 : 形状 为 64x64x64 的 3D 图 像 。 


图 2-2 展示 的 是 生成 网 络 的 架构 。 


512x4x4x4 
256x8x8x8 


128x16x16x16 


64x32x32x32 


z 3D 体 素 空间 中 的 G(z) 
64x64x64 


图 2-2 ”生成 网 络 的 架构 
图 2-3 展示 了 生成 网 络 中 各 层 的 张 量 流 ， 以 及 输入 和 输出 张 量 的 形状 ， 以 便于 理解 。 


input: (None, 1, 1, 1, 200) 


input_1: InputLayer 


output: (None, 1, 1, 1, 200) 


input: (None, 1, 1, 1, 200) 
Conv3d_transpose_1: Conv3DTranspose 


output: (None, 4, 4, 4, 512) 


(None, 4, 4, 4, 512) 
batch_normalization_1: BatchNormalization 


(None, 4, 4, 4, 512) 


(None, 4, 4, 4, 512) 
activation_1: Activation 


(None, 4, 4, 4, 512) 


(None, 4, 4, 4, 512) 
Conv3d_transpose_2: Conv3DTranspose 


(None, 8, 8, 8, 256) 


(None, 8, 8, 8, 256) 
batch_normalization_2: BatchNormalization 
(None, 8, 8, 8, 256) 


图 2-3 生成 网 络 中 各 层 的 张 量 流 ， 以 及 输入 和 输出 张 量 的 


状 


NS 
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input: | (None, 8, 8, 8, 256) | 
activation_2: Activation 
output: | (None, 8, 8, 8, 256) | 


Conv3d_transpose_3: Conv3DTranspose 


(None, 8, 8, 8, 256) 


output: (None, 16, 16, 16, 128) 


(None, 16, 16, 16, 128) 


activation_3: Activation 


input: 
batch_normalization_3: BatchNormalization 
| output: | (None, 16, 16, 16, 128) 
vy 
input: | (None, 16, 16, 16, 128) 


(None, 16, 16, 16, 128) 


input: | (None, 16, 16, 16, 128) | 
Conv3d_transpose_4: Conv3DTranspose 
output: | (None, 32, 32, 32, 64) | 
县 
| input: | (None, 32, 32, 32, 64) 
batch_normalization_4: BatchNormalization 
| output: | (None, 32, 32, 32, 64) 


(None, 32, 32, 32, 64) 
activation_4: Activation 


(None, 32, 32, 32, 64) 


Conv3d_transpose_5: Conv3DTranspose 


input: (None, 32, 32, 32, 64) 


这 


output: (None, 64, 64, 64, 1) 


batch_normalization_5: BatchNormalization 


input: (None, 64, 64, 64, 1) 


output: 


(None, 64, 64, 64, 1) 


和 


input: 
activation_5; Activation 


| (None, 64, 64, 64, 1) 


(None, 64, 64, 64, 1) 


图 2-3 


完全 卷 积 网 络 不 以 全 连接 层 收 尾 , 它 


( 续 ) 


完全 是 由 卷 积 层 组 成 的 , 但 像 以 全 连接 层 收 


尾 的 卷 积 网 络 那 样 支持 端 到 端的 训练 。 生 成 网 络 中 没有 池 化 层 。 
2. 判别 网 络 的 架构 
判别 网 络 包含 5 个 体积 型 卷 积 层 ， 配 置 如 下 。 


口 3D 卷 积 层 数 量 : 5 
口 过 滤器 数量 : 64，128，256，512，1 
口 卷 积 核 大 小 : 


4, 4, 4, 4, 4 
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步 长 : 2, 2, 2, 2, 1 

激活 函数 : LeakyReLU, LeakyReLU, LeakyReLU, LeakyReLU, sigmoid 
是 否 使 用 批 归 一 化 : 是 , 是， 是， 是 ， 否 

是 否 使 用 池 化 层 : 否 ， 否 ， 否 ， 否 ， 否 

是 否 是 线性 层 : 否 ， 否 ， 否 ， 否 ， 否 

判别 网 络 的 输入 和 输出 如 下 。 


口 输入 : 形状 为 (64，64，64) 的 3D 图像。 
口 输出 : 输入 图 像 属 于 “真实 ”类 别 或 “虚假 ”类 别 的 概率 。 


图 2-4 展示 了 判别 网 络 中 各 层 的 张 量 流 ， 以 及 输入 和 输出 张 量 的 形状 ， 以 便于 理解 。 


DOODODODO 


input: (None, 64, 64, 64, 1) 
input_2: InputLayer 

output: (None, 64, 64, 64, 1) 

input: (None, 64, 64, 64, 1) 
conv3d_1: Conv3D 


output: (None, 32, 32, 32, 64) 


(None, 32, 32, 32, 64) 


batch_normalization_6: BatchNormalization 
(None, 32, 32, 32, 64) | 


input: | (None, 32, 32, 32, 64) | 
leaky_re_lu_1: LeakyReLU | 


output: | (None, 32, 32, 32, 64) | 


input: (None, 32, 32, 32, 64) | 


conv3d_2: Conv3D 


output: (None, 16, 16, 16, 128) 


(None, 16, 16, 16, 128) 


batch_normalization_7: BatchNormalization 
(None, 16, 16, 16, 128) 


(None, 16, 16, 16, 128) 


output: (None, 16, 16, 16, 128) 


leaky_re_lu_2: LeakyReLU 


input: (None, 16, 16, 16, 128) 


conv3d_3: Conv3D 
output: (None, 8, 8, 8, 256) 


(None, 8, 8, 8, 256) 


batch_normalization_8: BatchNormalization 


(None, 8, 8, 8, 256) 
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1 input: | (None, 8, 8, 8, 256) | 
leaky_re_lu_3: LeakyReLU 
| output: | (None, 8, 8, 8, 256) | 
Y 
input: (None, 8, 8, 8, 256) 
conv3d_4: Conv3D 
output (None, 4, 4, 4, 512) 


input: (None, 4, 4, 4, 512) 


batch_normalization_9: BatchNormalization 


output: (None, 4, 4, 4, 512) 


(None, 4, 4, 4, 512) 
leaky_re_lu_4: LeakyReLU 


output: (None, 4, 4, 4, 512) 


6 
input: (None, 4, 4, 4, 512) 
conv3d_5: Conv3D 
output (None, 1, 1, 1, 1) 
室 


(None, 1, 1, 1, 1) 


batch_normalization_10: BatchNormalization 
(None, 1, 1, 1, 1) 


vy 
input: (None, 1, 1, 1, 1) 
activation_6: Activation 
output: (None, 1, 1, 1, 1) 
图 2-4 【( 续 ) 


判别 网 络 相当 于 生成 网 络 的 镜像 。 一 个 重要 的 区 别 是 , 判别 网 络 使 用 的 激活 函数 是 LeakyReLU 
而 不 是 ReLU， 而 且 判 别 网 络 最 后 的 sigmoid 层 用 于 进行 二 分 类 ， 佑 测 输入 图 像 的 真 假 。 最 后 一 
层 没有 批 归 一 化 层 ， 但 其 他 层 都 使 用 批 归 一 化 对 输入 进行 正则 化 。 


2.1.3 ”目标 函数 


目标 函数 是 训练 3D-GAN 的 主要 手段 。 它 提供 了 用 于 计算 梯度 并 更 新 权重 值 的 损失 值 。 
3D-GAN 的 对 抗 损 失 函 数 如 下 。 


Liponn = 1l0g D(x)+ log(l— D(G(z))) 


其 中 log(DCo) 是 二 元 交叉 灶 损 失 (〈 也 称 “分 类 损失 ”), log(1 一 D(G(z))) 是 对 抗 损失 ,z 是 概率 空间 
p(2) 的 潜在 向 量 ，DQ) 是 判别 网 络 的 输出 ，G(z) 是 生成 网 络 的 输出 。 


2.1.4 训练 3D-GAN 


训练 3D-GAN 和 训练 普通 GAN 类 似 。3D-GAN 的 训练 步骤 如 下 。 
(1) 从 高 斯 ( 正 态 ) 分 布 中 采样 一 个 200 维 的 噪声 向 量 。 
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(2) 使 用 生成 网 络 生成 一 张 假 图 像 。 

(3) 使 用 ( 从 真实 数据 中 采样 的 ) 真实 图 像 和 生成 网 络 生成 的 假 图 像 训练 判别 网 络 。 
(4) 使 用 对 抗 模 型 训练 生成 网 络 ， 不 训练 判别 网 络 。 

(5) 按 指 定 轮 数 重 复 上 述 步骤 。 


稍 后 会 详细 介绍 这 些 步 又。 下 面 先 创建 一 个 项 目 。 


2.2 创建 项 目 


本 项 目的 源 代 码 可 从 GitHub 上 获取 ， 地址 如 下 : https:/github.com/PacktPublishing/Generative- 
Adversarial-Networks-Projects。 


运行 如 下 命令 创建 项 目 。 


(1) 首先 访问 父 目录 ， 如 下 所 示 。 


cd Generative-Adversarial-Networks-Projects 


(2) 然后 从 当前 目录 切换 到 Chapter02 目录 。 


cd Chapter02 


(3) 接着 为 本 项 目 创建 一 个 Python 虚拟 环境 。 


virtualenv venv 


(4) 完成 之 后 ， 启 用 该 虚拟 环境 。 


source venv/bin/activate 


(5) 最 后 ， 安 装 requirements.txt 文件 中 列 出 的 全 部 所 需 程序 。 


pip install -r requirements.txt 


这 样 就 创建 好 了 项 目 。 如 需 了 解 更 多 信息 ， 请 参考 代码 目录 中 的 README.md 文件 。 


2.3 准备 数据 


本 章 使 用 3D ShapeNets 数据 集 , 下 载 地 址 为 : http://3dshapenets.cs.princeton.edu/3DShapeNetsCode.zip。 
该 数据 集 由 Wu 和 Song 等 人 发 布 ， 包 含 经 过 得 当 标 注 的 40 个 类 别 的 3D 物体 形状 。 本 项 目 会 使 
用 文件 夹 中 的 体积 型 数据 ， 稍 后 详细 介绍 。 下 面 下 载 、 提 取 并 探索 该 数据 集 。 


i 3D ShapeNets 数据 集 仅 用 于 学 术 研 究 。 如 想 商 用 ， 需 征求 论文 作者 同意 ， 邮 箱 地 


址 为 : shurans@cs.princeton.edu。 
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2.3.1 下 载 并 提取 数据 集 
运行 以 下 命令 ， 下 载 并 提取 数据 集 。 
(1) 首先 通过 以 下 地 址 下 载 3D ShapeNets 数据 集 。 


wget http://3dshapenets .cs.princeton.edu/3DShapeNetsCcode .zip 


(2) 下 载 完 成 之 后 ， 运 行 如 下 命令 将 文件 提取 至 恰当 的 目录 。 
unzip 3DShapeNetsCode.zip 


数据 集 的 下 载 和 提取 就 完成 了 。 数 据 集 中 包含 .mat ( MATLAB ) 格式 的 图 像 。 所 有 图 像 都 是 
3D 图 像 。 下 面 介 绍 体 素 ， 即 3D 空间 中 的 点 。 


2.3.2 ”探索 数据 集 


为 了 更 好 地 理解 数据 集 ， 需 要 将 其 中 的 3D 图 像 可 视 化 。 下 面 介绍 什么 是 体 素 ， 然 后 加 载 一 
张 3D 图 像 并 将 其 可 视 化 。 


1. 什么 是 体 素 


体 素 即 体积 像素 (volume pixel )， 是 三 维 空间 中 的 点 。 体 素 通 过 x、y、z 这 3 个 方向 的 坐标 
定义 了 位 置 。 体 素 是 3D 图 像 表 示 的 基本 单元 ， 主要 应 用 于 CAT 扫描 、X 光 以 及 MRI， 可 以 创建 
人 体 以 及 其 他 物体 的 精确 3D 模型 。 掌 握 体 素 这 个 概念 有 助 于 处 理 3D 图 像 , 因为 它 是 3D 图 像 的 
组 成 材料 。 图 2-5 直观 展示 了 3D 图 像 中 的 体 素 。 


图 2-5 一 张 3D 图 像 中 的 一 系列 体 素 ， 阴 影 区 域 表 示 的 是 一 个 体 素 
上 图 展现 了 堆 受 的 体 素 ， 其 中 的 灰色 立方 体 表 示 一 个 体 素 。 介 绍 过 了 体 素 ， 下 面 加 载 3D 
像 并 将 其 可 视 化 。 

2. 加 载 并 可 视 化 3D 图 像 

3D ShapeNets 数据 集 包 含 了 各 种 物体 的 CAD 模型 ， 文 件 格式 为 .mat。 下 面 将 这 些 .mat 文件 
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转换 为 NumPy ndarray 形式 ， 并 把 一 张 3D 图 像 可 视 化 ， 直 观 展 现 该 数据 集 。 
执行 如 下 代码 ， 从 .mat 文件 中 加 载 一 张 3D 图 像 。 
(1) 使 用 scipy 库 中 的 1oadmat () 函数 提取 voxels 变量 。 代 码 如 下 : 


import scipy.io as io 
voxels = io.loadmat ("path to .mat file")['instance'] 

(2) 所 加 载 的 3D 图 像 形 状 为 30x30x30， 而 所 使 用 的 网 络 要 求 图 像 的 形状 为 64x64x64。 使 用 
NumPy 的 pad () 方 法 将 3D 图 像 的 大 小 增加 到 32x32x32。pad ( ) 方 法 接收 4 个 参数 ， 分 别 为 
实际 体 素 的 ndarray、 每 个 轴 两 边 需要 填充 值 的 数量 、 模 式 值 ( 使 用 常数 ) 以 及 需要 填充 的 常 
数值 。 

import numpy as np 
voxels = np.pad(voxels, (1, 1), 'constant', constant_values=(0, 0)) 


(3) 接着 使 用 scipy.ndimage 模块 中 的 zoom () 函数 将 该 3D 图 像 形 状 转换 成 64x64x64。 


import scipy.ndimage as nd 
voxels = nd.zoom(voxels, (2, 2, 2), mode='constant', order=0) 


该 项 目 使 用 的 神经 网 络 要 求 图 像 的 形状 是 64x64x64, 这 就 是 需要 将 3D 图 像 转换 成 该 形状 的 
3. 将 3D 图 像 可 视 化 
下 面 使 用 matplotlib 对 3D 图 像 进行 可 视 化 ， 代 码 如 下 。 
(1) 首先 创建 一 张 matplotlib 图 ， 并 为 其 添加 一 张 子 图 。 
Fi te 


ax = fig.gca (projection='3d') 
ax.set_aspect('equal') 


(2) 然后 向 图 中 添加 voxels 变量 。 
ax.VOXels (voxels, edgecolor="red") 


(3) 生成 图 像 并 保存 为 图 片 ， 以 便 稍 后 查看 。 


plt.show!() 
plt.savefig (file path) 


2-6 展示 了 3D 平面 中 的 一 架 飞 机 。 
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图 2-6 3D 平 面 中 的 一 架 飞 机 
2-7 展示 了 3D 平面 中 的 一 张 桌子 。 


图 2-7 3D 平 面 中 的 一 张 桌子 
2-8 展示 了 3D 平面 中 的 一 把 棒子 。 
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图 2-8 3D 平 面 中 的 一 把 椅子 


至 此 , 下 载 、 提 取 并 探索 了 数据 集 ， 还 介绍 了 体 素 的 使 用 方式 。 下 面 使 用 Keras 框架 实现 一 
个 3D-GAN。 


2.4 3D-GAN 的 Keras 实现 


下 面 使 用 Keras 框架 实现 生成 网 络 和 判别 网 络 。 需 要 创建 两 个 Keras 模型 ， 两 个 网 络 各 自 拥 
有 权重 值 。 从 生成 网 络 开始 吧 。 


2.4.1 生成 网 络 
实现 生成 网 络 需要 创建 一 个 Keras 模型 ， 然 后 添加 神经 网 络 的 各 层 。 实 现 步骤 如 下 。 
(1) 首先 确定 不 同 超 参数 的 取 值 。 


Zz_size = 200 


gen_filters = [512, 256, 128, 64, 1] 

gen_ kernel_sizes = [4, 4, 4, 4, 4] 

gen_strides = [1, 2, 2, 2, 2] 

gen_input_shape = (1, 1, 1, z_size) 

gen_activations = ['relu', 'relu', 'relu', 'relu', 'sigmoid'] 


gen_convolutional_blocks = 5 


(2) 然后 创建 一 个 输入 层 ， 以 便 网 络 接收 输入 。 生 成 网 络 的 输入 是 从 概率 潜在 空间 采样 的 一 
个 向 量 。 
input_layer = Input(shape=gen_input_shape) 


(3) 然后 添加 第 一 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 ， 代 码 如 下 。 
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# 第 一 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 

a = Deconv3D(filters=gen filters{[0], 
kernel_size=gen _ kernel_ sizes[0], 
strides=gen_strides[0]) (input_layer) 

a = BatchNormalization() (a, training=True) 

a = Activation(activation=gen activations[0]) (a) 


(4) 再 添加 4 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 ， 代 码 如 下 。 
另外 4 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 


for i in range (gen_convolutional blocks - 1): 

a = Deconv3D(filters=gen filters[i + 1]， 
kernel_size=gen _ kernel_ sizes[i + 1], 
strides=gen_strides[i + 1], padding='same') (a) 

a = BatchNormalization() (a, training=True) 

a = Activation(activation=gen activations[i + 1]) (a) 


(5) 接着 创建 一 个 Keras 模型 ， 指 明生 成 网 络 的 输入 和 输出 。 


model = Model (inputs=input_layer, outputs=a) 


(6) 最 后 将 生成 网 络 的 代码 包装 在 buila_generator () 函数 中 。 


def build generator(): 
使 用 如 下 定义 的 超 参 数 ， 创 建 一 个 生成 网 络 模型 


ZS8ize = 200 
gen_filters = [512, 256, 128, 64, 1] 
gen_kernel_sizes = [4, 4, 4, 4, 4] 
gen_strides = [1, 2, 2, 2, 2] 
gen_input_shape = (1, 1, 1, z_size) 
gen_activations = ['relu', 'relu', 'relu', 'relu', 'sigmoid'] 
gen_convolutional blocks = 5 
input_layer = Input (shape=gen_input_shape) 


# 第 一 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 

a = Deconv3D(filters=gen filters{[0], 

kernel_size=gen kernel_ sizes[0], 
strides=gen_strides[0]) (input_layer) 

BatchNormalization() (a, training=True) 

Activation(activation='relu') (a) 


a 
a 


# 另外 4 个 3D 转 置 卷 积 (或 3D 反 卷 积 ) 块 
for i in range(gen convolutional blocks - 1): 

a = Deconv3D(filters=gen filters[i + 1]， 
kernel_size=gen _ kernel_ sizes[i + 1]， 
strides=gen_strides[i + 1], padding='same') (a) 

BatchNormalization() (a, training=True) 
Activation(activation=gen activations[i + 1]) (a) 


a 
a 


gen_ model = Model (inputs=input_layer, outputs=a) 


gen_model .summary () 
return gen model 


这 样 就 创建 好 了 生成 网 络 的 Keras 模型 。 下 面 为 判别 网 络 创建 一 个 Keras 模型 。 
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2.4.2 判别 网 络 
同样 ， 实 现 判别 网 络 也 需要 创建 一 个 Keras 模型 ， 并 添加 神经 网 络 的 各 层 。 实 现 步骤 如 下 。 
(1) 首先 确定 不 同 超 参 数 的 取 值 。 


dis_input_shape = (64, 64, 64, 1) 

dis filtergs = [64,; .128, 256; 512;™ 1] 

dis_kernel sizes = [4, 4, 4, 4, 4] 

driesttLigqes s. (2 7 7 ,2 二] 

dis_paddings = ['same', 'same', 'same', 'same', 'valid'] 

discalphas = E02 "02 0 2 02y :C052] 

dis_ activations = ['leaky_relu', 'leaky_relu', 'leaky_relu', 
'lJeaky_relu', 'sigmoid'] 


dis_convolutional_blocks = 5 


(2) 然后 创建 一 个 输入 层 ， 以 便 网 络 接收 输入 。 判 别 网 络 的 输入 是 一 个 形状 为 64x64x64x1 
的 3D 图 像 。 


dis_input_layer = Input (shape=dis_input_shape) 


(3) 接着 添加 第 一 个 3D 卷 积 块 ， 代 码 如 下 。 


# 第 一 个 3D 卷 积 块 

a = Conv3D(filters=dis filters[0], 
kernel_size=dis_kernel_ sizes[0], 
strides=dis_strides[0], 
padding=dis_paddings[0]) (dis_input_layer) 

BatchNormalization() (a, training=True) 

LeakyReLU (alphas [0]) (a) 


(4) 再 添加 4 个 3D 卷 积 块 ， 代 码 如 下 。 
# 另外 4 个 3D 卷 积 块 


for i in range(dis_convolutional blocks - 1): 

a = Conv3D(filters=dis_filters[i + 1]， 
kernel_size=dis_kernel_ sizes[i + 1], 
strides=dis_strides[i + 1]， 
padding=dis _ paddings[i + 1]) (a) 

a = BatchNormalization() (a, training=True) 


a 
a 


if dis_ activations[i + 1] == 'leaky_relu': 
a = LeakyReLU(dis_alphas[i + 1]) (a) 
elif dis_activations[i + 1] == 'sigmoid': 


a = Activation(activation='sigmoid') (a) 


(5) 接着 创建 一 个 Keras 模型 ， 指 明 判 别 网 络 的 输入 和 输出 。 


dis_ model = Model (inputs=dis_input_layer, outputs=a) 


(6) 最 后 将 判别 网 络 的 代码 包装 成 函数 ， 如 下 所 示 。 


def buildq discriminator(): 
使 用 如 下 定义 的 超 参 数 ， 创 建 一 个 判别 网 络 模型 
返回 : 判别 网 络 
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dis_input_shape = (64, 64, 64, 1) 

dis. filters := [64,; 128; :256; 512%;. 1] 

dis_ kernel_ sizes = [4, 4, 4, 4, 4] 

dionetrides Ea. [2 (2 2..2 "1 

dis_paddings = ['same', 'same', 'same', 'same', 'valid'] 

disvalDhas, Ee: [0.9 .023., 052 02 OH 

dis_activations = ['leaky_relu', 'leaky_relu', 'leaky_relu', 
'lJeaky_relu', 'sigmoid'] 


dis_convolutional blocks = 5 
dis_input_layer = Input (shape=dis_input_shape) 


# 第 一 个 3D 卷 积 块 

a = Conv3D(filters=dis_ filters[0], 
kernel_size=dis_kernel_ sizes[0], 
strides=dis_strides[0], 
padding=dis_paddings[0]) (dis_input_layer) 

BatchNormalization() (a, training=True) 

LeakyReLU(dis_alphas{[0]) (a) 


册 多 
ll 


# 另外 4 个 3D 卷 积 块 
for i in range(dqis_convolutional _ blocks - 1): 

a = Conv3D(filters=dis_filters[i + 1]， 
kernel_size=dis_kernel_sizes[i + 1], 
strides=dis_strides[i + 1]， 
padding=dis_ paddings[i + 1]) (a) 

a = BatchNormalization() (a, training=True) 


if dis_ activations[i + 1] == 'leaky_relu': 
a = LeakyReLU(dis alphas[i + 1]) (a) 
elif dis_activations[i + 1] == 'sigmoid': 


a = Activation(activation='sigmoid') (a) 
dis_ model = Model (inputs=dis_input_layer, outputs=a) 


print (dis_model.summary ()) 
return dis_model 


这 样 就 创建 好 了 判别 网 络 的 Keras 模型 。 下 面 开始 训练 3D-GAN。 


2.5 训练 3D-GAN 


训练 3D-GAN 和 训练 普通 GAN 类 似 。 首 先 锁定 生成 网 络 ， 并 使 用 生成 的 图 像 和 真实 图 像 一 
起 训练 判别 网 络 。 然 后 锁定 判别 网 络 ， 训 练 生成 网 络 。 将 该 过 程 重复 多 轮 。 一 次 迭代 中 会 依次 训 
练 判别 网 络 和 生成 网 络 。3D-GAN 的 训练 是 一 种 端 到 端的 训练 。 下 面 详 述 这 些 步 又 。 


2.5.1 训练 两 个 网 络 
训练 3D-GAN 的 步骤 如 下 。 
(1) 首先 指明 训练 所 需 的 不 同 超 参 数 的 取 值 ， 如 下 所 示 。 
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gen_learning_rate = 0.0025 
dis_learning_ rate = 0.00001 
beta = 0.5 

batch_ size = 32 

Zz_size = 200 


DIR_PATH = 'Path to the 3DShapenets dataset Qirectory' 
generated_volumes_dir = 'generated volumes' 
LO Qir Ss. OTe 
(2) 然后 创建 两 个 网 络 并 编译 ， 如 下 所 示 。 
创建 实例 


generator = build generator() 
discriminator = build discriminator() 


确定 优化 器 
gen_optimizer = Adam(lr=gen learning_ rate, beta 1=beta) 
dis_optimizer Adam(lr=dis_learning rate, beta 1=0.9) 


编译 网 络 
generator.compile(loss="binary_crossentropy", optimizer="adam") 
discriminator.compile(loss='binary_crossentropy', optimizer=dis_optimizer) 


这 里 使 用 Adam 优化 器 作为 优化 算法 。 第 一 步 已 经 设置 了 Adam 优化 器 的 超 参数 。 
G) 接着 创建 对 抗 模型 并 编译 。 


discriminator.trainable = False 

adversarial model = Sequential () 

adversarial model.add (generator) 

adversarial model.add (discriminator) 

adversarial model.compile(loss="binary_crossentropy", 
optimizer=Adam(lr=gen_ learning_rate, beta_ 1=beta)) 


(4) 然后 提取 并 加 载 训练 所 需 的 所 有 airplane 图 像 。 


def getVoxelsFromMat (Path，cube_len=64) : 
voxels = io.loadmat (path) ['instance'] 
voxels = np.pad(voxels, (1, 1), 'constant', constant_values=(0, 0)) 
if cube_len != 32 and cube len == 64: 
voxels = nd.zoom(voxels, (2, 2, 2), mode='constant', order=0) 
return voxels 


def get3ImagesForACategory (obj='airplane', train=True, cube_ len=64, 
obj_ratio=1.0): 

obj_path = DIR_PATH + obj + '/30/' 

obj_path += 'train/' if train else 'test/' 

fileList = [f for f in os.listdir(obj path) if f.endswith('.mat')] 

fileList fileList[0:int (obj_ratio * len(fileList))] 

volumeBatch = np.asarray( 
[getVoxelsFromMat (obj_path + f, cube_ len) for f in fileList], 
dtype=np .bool) 

return volumeBatch 


volumes = get3ImagesForACategory (obj='airplane', train=True, obj_ratio=1.0) 
volumes = volumes[..., np.newaxis] .astype (np.float) 
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(5) 添加 rensorBoara 回调 函数 ， 并 向 其 添加 生成 网 络 和 判别 网 络 。 


tensorboard = TensorBoard(log_dir="{}/{}".format (log_ dir, time.time())) 
tensorboard.set_model (generator) 
tensorboard.set_model (discriminator) 


(6) 添加 一 个 循环 ， 进 行 特定 轮 数 的 训练 。 


for epoch in range(epochs) : 
print ("Epoch:", epoch) 


# 创建 两 个 列表 ， 用 于 存储 损失 
gen_losses = [] 
dis_losses = [] 


(7) 在 第 一 个 循环 内 部 再 添加 一 个 循环 ， 运 行 特定 数量 的 批 次 。 


number_of_batches = int (volumes.shape[0] / batch size) 
print ("Number of batches:", number_of_ patches) 
for index in range (number_of_ batches): 

print ("Batch:", index + 1) 


(8) 然后 从 真实 图 像 集 中 采样 一 个 批 次 的 图 像 , 同时 从 正 态 分 布 中 采样 一 个 批 次 的 噪声 向 量 。 


噪声 向 量 的 形状 应 为 (1，1，1，200)。 


z_sample = np.random.normal ( 
0, 0.33, size=[batch_ size, 1, 1, 1, z_size]).astype(np.float32) 
volumes_batch = volumes[index * batch size: (index + 1) * patch size, :, 


(9) 使 用 生成 网 络 生成 假 图 像 。 从 z_sample 中 将 一 批 次 的 噪声 向 量 传递 给 生成 网 络 ， 


成 一 批 次 的 假 图 像 。 


gen_volumes = generator.predict (z_sample,verbose=3) 


(10) 然后 使 用 生成 网 络 生成 的 假 图 像 和 真实 图 像 集 中 的 一 批 次 的 真 图 像 训练 判别 网 络 。 


将 判别 网 络 设置 为 “可 训练 ”。 
将 判别 网 络 设置 为 “可 训练” 


discriminator.trainable = True 


创建 假 标签 和 真 标签 


labels_real = np.reshape([1] * batch size, (-1, 1, 1, 1, 1)) 
labels_fake = np.reshape([0] * batch size, (-1, 1, 1, 1, 1)) 
训练 判别 网 络 


loss_real = discriminator.train on batch(volumes_batch, 
labels_real) 
loss_fake = discriminator.train on batch(gen volumes, 
labels_fake) 


计算 判别 网 络 的 总 损失 


d_loss = 0.5 * (loss_real + loss_fake) 


上 面 的 代码 训练 判别 网 络 ， 并 计算 判别 网 络 的 全 部 损失 。 
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(11) 对 包含 生成 网 络 和 判别 网 络 的 对 抗 模型 进行 训练 。 


z = np.random.normal(0, 0.33, size=[batch size, 1, 1, 1, 
z_size]).astype (np.float32) 


# 训练 对 抗 模型 
g_loss = adversarial model.train on_batch ( 
z, np.reshape([l]*batch_ size, (-1, 1, 1, 1, 1))) 


将 两 个 损失 分 别 加 入 相应 列表 中 。 


gen_losses.append(g_loss) 
dis_losses.append(d_ loss) 


(12) 每 训练 两 轮 ， 生 成 并 保存 3D 图 像 。 


if index %$ 10 == 0: 
z_sample2 = np.random.normal( 
0, 0.33, size=[batch_ size, 1, 1, 1, z_sizel]) .astype (np.float32) 
generated_volumes = generator.predict (z_sample2, verbose=3) 
for i, generated volume in enumerate(generated volumes[:5]): 
voxels = np.squeeze (generated volume) 
voxels[voxels < 0.5] = 0. 
voxels[voxels >= 0.5] = 1. 
saveFromVoxels (voxels, "results/img_{}_{}_{}".format (epoch,index, i)) 


(13) 每 轮 将 平均 损失 保存 到 TensorBoard。 


# 将 损失 存储 到 TensorBoard 
write_log(tensorboard, 'g_loss', np.meanl(gen losses), epoch) 
write_log(tensorboard, 'd_loss', np.meanl(dis_losses), epoch) 


建议 首先 训练 100 轮 以 便 发 现代 码 中 的 问题 。 排查 完 问题 后 就 可 以 进行 100 000 轮 
的 训练 了 。 


2.5.2 ”保存 模型 
完成 训练 之 后 ， 使 用 如 下 代码 保存 生成 网 络 和 判别 网 络 习 得 的 权重 值 。 


保存 模型 
generator.save_ weights(os.path.join(generated volumes_dir, 
"generator_weights.h5")) 
discriminator.save weights (os.path.join(generated volumes_dir, 
"discriminator_weights.h5")) 
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2.5.3 测试 模型 


如 果 想 测试 模型 ， 需 要 创建 生成 网 络 和 判别 网 络 并 加 载 习 得 的 权重 值 ， 然 后 使 用 predict () 
方法 生成 估 测 。 


创建 模型 
generator = build generator () 
discriminator = build qiscriminator () 
加 载 模 型 权重 
generator.load weights(os.path.join(generated volumes_dir, 
"generator weights.h5"), True) 
discriminator.load weights (os.path.join(generated volumes_dir, 
"discriminator_ weights.h5"), True) 
生成 3D 图 像 


z_sample = np.random.normal ( 
0, 0.33, size=[batch_size, 1, 1, 1, z_size]).astype (np.float32) 
generated_ volumes = generator.predict (z_sample, verbose=3) 


这 样 就 训练 了 3D-GAN 的 生成 网 络 和 判别 网 络 。 下 面 介 绍 超 参 数 调 优 和 优化 超 参数 的 各 种 
方法 。 
2.5.4 损失 可 视 化 

启动 TensorBoard 服务 右 ， 将 训练 损失 可 视 化 ， 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ( 见 图 2-9 和 图 2-10 )。 


gloss 


0.000 5.000 10.00 15.00 20.00 25.00 30.00 35.00 40.00 


图 2-9 生成 网 络 的 损失 曲线 
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图 2-10 判别 网 络 的 损失 曲线 
这 些 曲线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 , 因为 已 经 没 
有 提升 的 可 能 了 ; 如 果 损 失 不 断 提高 , 那么 必须 停止 训练 。 尝 试 不 同 的 超 参 数 以 获得 更 好 的 结果 ; 
如 果 损 失 在 逐渐 降低 ， 就 继续 训练 模型 。 


2.5.5 图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 采 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 2-11 )。 


TensorBoard SCALARS GRAPHS INACTIVE 
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图 2-11 各 图 中 的 张 量 和 不 同 运算 的 流 
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2.6 ”起 参数 优化 


前 面 训练 的 模型 可 能 不 够 完美 ,可 以 通过 超 参 数 调 优 来 改进 。3D-GAN 中 有 很 多 用 于 优化 的 
超 参数 ， 如 下 所 示 。 


口 批 次 规模 。 尝 试 使 用 8、16、32、64 或 128 作为 批 次 规模 。 

口 轮 数 。 尝 试 训 练 100 轮 ， 然 后 逐渐 提高 到 1000 轮 到 5000 轮 。 

口 学 习 速 率 。 这 是 最 重要 的 超 参 数 。 尝 试 0.1、0.001、0.0001， 以 及 其 他 较 小 的 学 习 速 率 。 
口 生成 网 络 和 判别 网 络 中 各 层 的 激活 函数 : 尝试 使 用 sigmoid、tanh、ReLU、LeakyReLU、 
ELU、SeLU， 以 及 其 他 激活 函数 。 

口 优化 算法 。 尝 试 使 用 Adam、SGD 、Adadelta 、RMSProp， 以 及 Keras 框架 中 的 其 他 优化 器 。 
口 损失 函数 。 对 于 3D-GAN 而 言 ， 二 元 交叉 人 是 最 佳 的 损失 函数 。 

口 两 个 网 络 的 层 数 。 根 据 可 用 训练 数据 量 的 大 小 ， 尝 试 使 用 不 同 的 网 络 层 数 。 如 果 训 练 数 
据 量 足够 的 话 ， 可 以 使 用 深度 网 络 。 


岂可 以 使 用 Hyperopt 或 Hyperas 等 库 来 实现 自动 化 超 参数 优化 ， 以 找到 最 佳 的 超 参数 组 合 。 


2.7 3D-GAN 的 实际 应 用 
3D-GAN 在 很 多 行业 都 有 应 用 前 景 ， 如 下 所 示 。 


口 制造 业 。 作 为 一 种 创造 性 工具 ，3D-GAN 有 助 于 快速 创建 原型 。 它 们 可 以 启发 创意 ， 还 
有 助 于 3D 模型 的 模拟 和 可 视 化 。 

口 3D 打印 。3D-GAN 生成 的 3D 图像 可 用 于 3D 打印 。 人 工 构建 3D 模型 非常 耗 时 。 

口 设计 过 程 。 生 成 3D 模型 可 以 为 某 个 具体 流程 的 最 终结 果 提 供 很 好 的 预 估 。 它 们 可 以 展现 
所 设计 东西 的 最 终 形 态 。 

口 生成 新 样本 。 类 似 于 其 他 GAN，3D-GAN 可 用 于 生成 图 像 ， 以 训练 有 监督 模型 。 


2.8 小 结 
本 章 探讨 了 3D-GAN。 首 先 介 绍 了 3D-GAN,， 以 及 其 生成 网 络 和 判别 网 络 的 架构 和 配置 ， 然 


后 通过 一 系列 步 又 建立 了 项 目 ， 并 介绍 了 如 何 准备 数据 集 ， 随 后 使 用 Keras 框架 实现 了 一 个 
3D-GAN,， 并 在 数据 集 上 进行 了 训练 。 本 章 还 列 出 了 不 同 的 超 参 数 选择 ， 最 后 介绍 了 3D-GAN 的 
实际 应 用 。 


下 一 章 将 介绍 如 何 使 用 cGAN 实现 人 脸 老 化 。 


使 用 cGAN 实现 人 脸 老 化 


cGAN 是 GAN 模型 的 一 种 扩展 ， 可 以 生成 符合 某 些 条 件 或 特征 的 图 像 ， 并 且 效 果 好 于 普通 
GAN。 本 章 实现 一 个 cGAN ,训练 之 后 可 以 自动 进行 人 脸 老 化 ,该 ceGAN 最初 是 由 Grigory Antipov、 
Moez Baccouche 和 Jean-Luc Dugelay 在 论文 “Face Aging With Conditional Generative Adversarial 
Networks” 中 提出 的 。 


本 草 讨 论 以 下 主题 。 


口 人 脸 老 化 cGAN 简介 
口 项 目 创建 

口 数据 准备 
口 cGAN 的 Keras 实现 

口 训练 cGAN 

口 模型 评估 以 及 超 参数 调 优 
口 人 脸 老 化 的 实际 应 用 


3.1 人 脸 老 化 cGAN 简介 


前 面 实 现 过 不 同 用 途 的 GAN。cGAN 拓展 了 普通 GAN 的 概念 ， 可 以 控制 生成 网 络 的 输出 。 
人 脸 老 化 是 在 保留 身份 特征 的 情况 下 ， 改 变 人 脸 的 年 龄 。 使 用 其 他 大 多 数 模 型 (包括 GAN ) 解 
决 该 问题 时 ， 人 的 外 貌 或 者 身份 特征 会 损失 50%， 因 为 面部 表情 以 及 修饰 ( 比如 墨镜 或 胡子 ) 都 
没 能 考虑 在 内 ， 而 Age-cGAN 会 考虑 所 有 这 些 特征 。 下 面 介绍 可 实现 人 脸 老 化 的 cGAN。 


3.1.1 理解 cGAN 


cGAN 能 以 某 种 额外 信息 为 条 件 ， 其 生成 网 络 接收 额外 信息 y 作为 附加 输入 层 。 普 通 GAN 
无 法 控制 生成 图 像 的 类 别 。 如 果 向 生成 网 络 增 加 条 件 y ( 可 以 是 任何 类 型 的 数据 ， 比 如 类 别 标签 
或 整数 ) 的 话 ， 就 可 以 使 用 ?来 生成 特定 类 别 的 图 像 。 普 通 GAN 只 能 学 习 一 个 类 别 ， 构 建 可 以 
学 习 多 个 类 别 的 GAN 极其 困难 。 而 cGAN 却 能 生成 多 峰 模型 , 使 用 不 同 的 条 件 生成 不 同 的 类 别 。 


36 第 3 章 使 用 cGAN 实现 人 脸 老 化 


3-1 展示 了 一 个 cGAN 架构 。 


让 判别 网 络 二 十 
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图 3-1 cGAN 架构 
cGAN 的 训练 目标 孔 数 形式 如 下 。 


minmaxV(D,G)= EB,,, wllog D(x| WI+E., llog(l -DP(G(z|y)))] 


其 中 ， C0 DD 是 判别 网 络 。 判别 网 络 的 损失 是 logD(x |y), 生成 网 络 的 损失 是 log(1 -D 
(G(z | 儿 )))。 给 定 z 和 y，G(z | y) 相 当 于 对 数据 分 布 的 建 模 。 其 中 ，z 是 一 个 从 正 态 分 布 中 采样 的 
100 维 先 验 噪声 分 布 。 


3.1.2 ”Age-cGAN 架构 


人 脸 老 化 cGAN 的 架构 稍 复杂 。Age-cGAN 包含 4 个 网 络 : 1 个 编码 网 络 、1 个 FaceNet、 
1 个 生成 网 络 和 1 个 判别 网 络 。 使 用 编码 网 络 可 以 学 习 具 有 年 龄 条 件 的 人 脸 图 像 与 对 应 潜在 向 量 
zo 之 间 的 反 向 映射 关系 。FaceNet 是 一 个 人 脸 识 别 网 络 ， 学 习 判 别 输入 图 像 x 和 重 构图 像 关 之 间 
的 差别 。 生 成 网 络 接收 隐藏 表示 (由 人 脸 图 像 和 条 件 向 量 组 成 )， 然 后 生成 图 像 。 判 别 网 络 用 于 
区 分 真实 图 像 和 假 图 像 。 


cGAN 存在 的 问题 是 无 法 学 习 具 有 特征 y 的 输入 图 像 x 到 潜在 向 量 z 的 反 向 映射 。 使 用 编码 网 
络 可 以 解决 该 问题 ,可 以 训练 编码 网 络 对 输入 图 像 x 反 向 映射 的 结果 进行 近似 。 下 面 介绍 Age-cGAN 
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涉及 的 各 个 网 络 。 
1. 编码 网 络 


编码 网 络 用 于 生成 给 定 图 像 的 潜在 向 量 。 它 接收 维度 为 (64，64，3) 的 图 像 ， 将 其 转换 成 
100 维 。 编 码 网 络 是 深度 卷 积 神经 网 络 。 该 网 络 包 含 4 个 卷 积 块 和 2 个 全 连接 层 。 每 个 卷 积 块 包 
含 一 个 卷 积 层 、 一 个 批 归 一 化 层 和 一 个 激活 函数 。 对 于 每 个 卷 积 块 , 除了 第 一 个 卷 积 层 ， 其 余 每 
个 卷 积 层 后 面 都 有 一 个 批 归 一 化 层 。3.4 节 会 介绍 编码 网 络 的 配置 。 


2. 生成 网 络 


生成 网 络 用 于 生成 维度 为 (54，64，3) 的 图 像 。 它 读 取 一 个 100 维 潜在 向 量 以 及 额外 信息 y， 
然后 试图 生成 逼真 的 图 像 。 生 成 网 络 也 是 次 度 卷 积 神经 网 络 ， 由 全 连接 层 、 上 采样 层 和 卷 积 层 组 
成 。 它 读 取 两 个 输入 值 : 一 个 噪声 向 量 和 一 个 条 件 值 。 条 件 值 就 是 向 生成 网 络 提供 的 附加 信息 ， 
在 Age-cGAN 中 是 年 龄 。3.3 节 会 介绍 生成 网 络 的 配置 。 


3. 判别 网 络 


判别 网 络 用 于 判断 给 定 图 像 的 真 假 , 通过 一 系列 下 采样 层 和 一 些 分 类 层 处 理 图 像 来 实现 , 即 
它 估 测 该 图 像 是 真是 假 。 判 别 网 络 也 是 深度 卷 积 网 络 ， 包含 一 些 卷 积 块 。 除 了 第 一 个 卷 积 块 没有 
批 归 一 化 层 之 外 ， 其 余 卷 积 块 都 包含 一 个 卷 积 层 、 一 个 批 归 一 化 层 和 一 个 激活 函数 。3.4 节 会 介 
绍 判别 网 络 的 配置 。 


4. 人 脸 识 别 网 络 


人 脸 识别 网 络 旨 在 通过 给 定 图 像 识 别 一 个 人 的 身份 特征 。 本 章 会 使 用 预 训 练 的 Inception-ResNet-2 
模型 ， 但 是 去 掉 了 其 全 连接 层 。Keras 拥有 很 不 错 的 预 训练 模型 库 。 也 可 以 使 用 Inception 或 者 
ResNet-50 等 网 络 来 进行 试验 。 预 训练 的 Inception-ResNet-2 返回 给 定 图 像 对 应 的 诅 入 。 后 面 的 计 
算 会 用 到 从 真实 图 像 和 重 构 图 像 中 抽取 的 般 入 ， 因 为 需要 计算 两 者 之 间 的 欧 氏 距离 。3.4 节 会 深 
人 探讨 人 脸 识别 网 络 。 


3.1.3 Age-cGAN 的 训练 阶段 


Age-cGAN 有 多 个 训练 阶段 。 前 面 提 过 ，Age-cGAN 由 4 个 网 络 组 成 ， 通 过 如 下 3 个 阶段 进 
行 训练 。 

(1) cGAN 训练 : 该 阶段 训练 生成 网 络 和 判别 网 络 。 

(2) 潜在 向 量 初步 近似 : 该 阶段 训练 编码 网 络 。 

(3) 潜在 向 量 优 化 : 该 阶段 同时 训练 编码 网 络 和 生成 网 络 。 


3-2 展示 了 Age-cGAN 的 各 个 训练 阶段 。 
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潜在 向 量 近似 


得 到 60 岁 
以 上 的 人 脸 


\We 


图 3-2 Age-cGAN 的 各 个 训练 阶段 
下 面 介 绍 Age-cGAN 的 各 个 阶段 。 
1 cGAN 训练 


该 阶段 训练 生成 网 络 和 判别 网 络 。 训 练 完成 后 ， 生 成 网 络 可 以 生成 模糊 的 人 脸 图 像 。 该 阶段 
和 训练 普通 GAN 类 似 ， 同 时 训练 两 个 网 络 。 


@ 训练 目标 函数 
cGAN 的 训练 目标 函数 形式 如 下 。 


min max v(06,05)= EB, ,, [log D(x,y)] 
二 ep. [log(l 三 D(G!(z, 了 )， $))] 


cGAN 的 训练 涉及 优化 v(9,,9,) 函数 。 可 以 把 cGAN 的 训练 看 作 极 小 极 大 化 的 博弈 ， 其 中 生 
成 网 络 和 判别 网 络 同时 进行 训练 。 在 上 面 的 公式 中 ，0, 表示 生成 网 络 的 参数 ，0, 表示 判别 网 络 
的 参数 log D(x, y) 表示 判别 网 络 的 损失 ， log( —D(G(z, $), $)) 表示 生成 网 络 的 损失 ， Pdata 是 所 
有 可 能 图 像 的 概率 分 布 。 

2. 潜在 向 量 初步 近似 


潜在 向 量 初步 近似 是 一 种 对 潜在 向 量 进行 近似 以 优化 人 脸 图 像 重 构 的 方法 ,对 潜在 向 量 进行 
近似 需要 使 用 编码 网 络 , 编码 网 络 使 用 生成 的 图 像 和 真实 图 像 进行 训练 。 训 练 完成 后 , 编码 网 络 
可 以 从 习 得 的 概率 分 布 中 生成 潜在 向 量 。 编 码 网 络 的 训练 目标 函数 是 欧 氏 距离 损失 。 


3. 潜在 向 量 优化 
潜在 向 量 优 化 阶段 同时 对 编码 网 络 和 生成 网 络 进行 优化 。 公 式 如 下 。 


(1) 


z IP=argmin|FR(x)— FR(D),, 
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其 中 FR 是 人 脸 识别 网 络 。 该 公式 表明 真实 图 像 和 重 构 图 像 之 间 的 欧 氏 距离 应 该 最 小 化 。 此 阶段 
试图 对 该 距离 进行 最 小 化 ， 以 最 大 程度 保留 身份 特征 。 


3.2 创建 项 目 


首先 需要 克隆 包含 本 书 所 有 章节 完整 代码 的 仓库 。 其 中 目录 Chapter03 包含 本 章 的 完整 代码 。 
执行 如 下 命令 来 创建 项 目 。 


(1) 首先 访问 父 目录 ， 如 下 所 示 。 


cd Generative-Adversarial-Networks-Projects 


(2) 从 当前 目录 切换 到 Chapter03。 


cd Chapter03 


(3) 然后 为 本 项 目 创建 一 个 Python 虚拟 环境 。 


virtualenv venv 
Virtualenv venv -p python3 # 创建 使 用 Python 3 解释 器 的 虚拟 环境 
Virtualenv venv -p python2 # 创建 使 用 Python 2 解释 器 的 虚拟 环境 


本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 
(4) 启用 新 创建 的 虚拟 环境 。 


source venv/bin/activate 
启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 
(5) 接着 使 用 如 下 命令 安装 requirements.txt 文件 中 列 出 的 所 有 库 。 


pip install -r requirements.txt 


README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创 建 独立 的 虚拟 环境 来 解决 。 


至 此 ， 成 功 创建 了 项 目 并 安装 了 所 需 的 依赖 程序 。 下 面 准备 数据 集 。 


3.3 准备 数据 
本 章 使 用 Wiki-Cropped 数据 集 ， 其 中 包含 了 64 328 张 不 同人 的 面部 图 像 。 其 作者 还 提供 了 
一 个 包含 剪裁 后 图 像 的 数据 集 ， 所 以 本 项 目 不 需 要 剪裁 图 像 了 。 
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landmarks” 的 作者 从 维基 百科 人 爬 取 了 这 些 图 像 ， 并 制 成 数据 集 供 学 术 研 究 使 用 。 


论文 “Deep expectation of real and apparent age from a single image without facial 
i 如 想 商 用 ， 请 发 送 邮 件 到 rrothe@vision.ee.ethz.ch 联系 作者 。 


该 数据 集 的 下 载 地 址 为 : https:/data.vision.ee.ethz.ch/cvlrrothe/imdb-wiki。 下 载 后 请 将 所 有 
压缩 文件 放 在 Age-cGAN 项 目的 目录 中 。 


下 载 及 提取 数据 集 的 步骤 如 下 。 


3.3.1 下 载 数 据 集 


执行 下 面 的 命令 ， 下 载 只 包含 剪裁 后 的 人 脸 图 像 数 据 集 。 
# 首先 访问 数据 目录 
cd data 


# 维基 百科 数据 集 : 仅 下 载 面部 图 像 
wget 
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/static/wiki_crop.tar 


3.3.2 ”提取 数据 集 
数据 集 下 载 完成 之 后 ， 手 动 提取 数据 文件 夹 里 的 文件 ， 或 者 执行 如 下 命令 来 提取 文件 。 


# 访问 数据 目录 cd data 
cd data 


# 提取 wiki_crop.tar 
tar -xvf wiki_crop.tar 


wiki_crop.tar 文件 包含 62 328 张 图 像 ， 以 及 一 个 包含 所 有 标签 的 wiki.mat 文件 。 可 以 使 用 
scipy.io 库 中 的 1oadmat 方法 在 Python 中 加 载 .mat 文件 。 使 用 如 下 代码 加 载 提 取出 来 的 .mat 文件 。 
def load data(wiki_dir, dataset='wiki'): 


# 加 载 wiki .mat 文件 
meta = loadmat (os.path.join(wiki _ dir, "{}.mat".format (dataset))) 


# 加 载 文 件 列表 
full_path = metaldataset] [0, 0]["full_ path"][0] 


# 包含 Matlab 日 期 序号 的 列表 
dob = metaldataset][0, 0]["dob"][0] 


# 包含 照片 拍摄 年 份 的 列表 
photo_taken = metaldataset] [0, 0]["photo_ taken"] [0] # year 


# 对 于 每 个 出 生日 期 数据 ， 计 算 其 在 照片 拍摄 年 份 所 对 应 的 年 龄 


age = [calculate age (photo taken[i], dob[i]) for i in range(len (dob))] 
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# 创建 由 元 组 构成 的 列表 ， 其 中 每 个 元 组 包含 一 个 图 像 路 径 和 一 个 年 龄 


images = [] 
age_list = [] 


for index, image path in enumerate(full path): 


images.append (image_ path[0]) 
age_list.append(age[index]) 


# 返回 包含 所 有 图 像 的 列表 ， 以 及 一 个 包含 对 应 年 龄 的 列表 


return images, age_list 


photo_taken 变量 是 一 个 年 份 列表 ，dob 是 列表 中 照片 对 应 的 Matlab 日 期 序号 。 可 以 通过 
日 期 序号 和 照片 拍摄 时 间 来 计算 人 的 年 龄 ， 如 以 下 代码 所 示 。 


def calculate_age (taken，qob) : 
birth = datetime.fromordinal (max(int (dob) - 366, 1)) 


# 假设 照片 是 在 当年 的 年 中 拍摄 的 
Tf BLEth. MonNEN. < 


else: 


return taken - birth.year 


return taken - birth.year -1 


下 载 并 提取 数据 集 后 ， 下 面 介绍 Age-cGAN 的 Keras 实现 。 


3.4 Age-cGAN 的 Keras 实现 


类 似 于 普通 GAN, cGAN 不 难 实 现 。 Keras 为 编写 复杂 的 生成 对 抗 网 络 提供 了 足够 的 灵活 性 。 
下 面 实现 cGAN 中 的 生成 网 络 、 判 别 网 络 和 编码 网 络 。 从 编码 网 络 开始 。 


编写 实现 代码 之 前 ， 首 先 创建 一 个 Python 文件 main.py 并 导入 核心 模块 ， 如 下 所 示 。 


impor 
impor 
impor 
from 


impor 
impor 
impor 
from 
from 
from 
from 
可 


from 
from 
from 
from 


t math 

t os 

t time 

datetime import datetime 


matplotlib.pyplot as plt 

numpy as np 

t tensorflow as tf 

keras import Input, Model 

keras.applications import InceptionResNetV2 
keras.callbacks import TensorBoard 

keras.layers import Conv2D, Flatten, Dense, BatchNormalization, 
eshape, concatenate, LeakyReLU, Lambda, \ 

K, Conv2DTranspose, Activation, UpSampling2D, Dropout 
keras.optimizers import Adam 

keras.utils import to_categorical 

keras_preprocessing import image 

scipy.io import loadmat 


\ 
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3.4.1 编码 网 络 


编码 网 络 是 CNN,， 将 图 像 (x ) 编码 为 潜在 向 量 (z) 或 潜在 向 量 表示 。 首 先 使 用 Keras 杠 
实现 编码 网 络 。 


实现 编码 网 络 的 步骤 如 下 。 
(1) 首先 创建 一 个 输入 层 。 


input_layer = Input (shape=(64, 64, 3)) 
(2) 然后 添加 第 一 个 卷 积 块 ， 包 含 一 个 2D 卷 积 层 和 一 个 激活 函数 。 配 置 如 下 。 


口 过 滤器 数量 : 32 
口 卷 积 核 大 小 : 5 
口 步 长 : 2 
口 填充 方式 : same 
口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 
# 第 1 个 卷 积 块 
enc = Conv2D(filters=32, kernel_ size=5, strides=2, 
padding='same') (input_layer) 
enc = LeakyReLU (alpha=0.2) (enc) 
(3) 然后 再 添加 3 个 卷 积 块 ， 每 个 卷 积 块 包含 1 个 2D 卷 积 层 、1 个 批 归 一 化 层 和 1 个 激活 函 
数 。 配 置 如 下 。 


口 过 滤器 数量 : 64，128，256 

口 卷 积 核 大 小 : 5，5，5 

口 步 长 : 2, 2, 2 

口 填充 方式 : same，same，same 

口 批 归 一 化 : 每 个 卷 积 层 后 面 都 会 使 用 一 个 批 归 一 化 层 

口 激活 函数 : LealyReLU，LeakyReLU，LeakyReLU (alpha 值 都 是 0.2 ) 
# 第 2 个 卷 积 块 
enc = Conv2D(filters=64，ketrnel_size=5，Sstridqes=2， 

padding='same') (enc) 


BatchNormalization() (enc) 
LeakyReLU (alpha=0.2) (enc) 


衬 


SC 
SG 


1 | 


# 第 3 个 卷 积 块 
enc = Conv2D(filters=128, kernel_ size=5, strides=2, 
padding='same') (enc) 
BatchNormalization() (enc) 

LeakyReLU (alpha=0.2) (enc) 
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# 第 4 个 卷 积 块 

enc = Conv2D(filters=256, kernel_size=5, strides=2, 
padding='same') (enc) 

BatchNormalization() (enc) 

LeakyReLU (alpha=0.2) (enc) 


enc 
enc 


(4) 接着 将 最 后 一 个 卷 积 块 的 输出 扁平 化 ， 如 下 所 示 。 
# 扁平 化 层 


enc = Flatten() (enc) 


i 将 维 张 量 转 换 成 一 维 张 量 ( 数列 ) 的 操作 称 为 扁平 化 。 


(5) 然后 添加 一 个 全 连接 层 ， 以 及 一 个 批 归 一 化 层 和 一 个 激活 函数 。 配 置 如 下 。 
口 单元 〈 结 点 ): 2096 

口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 


# 第 1 个 全 连接 层 


enc = Dense(4096) (enc) 
enc = BatchNormalization() (enc) 
enc = LeakyReLU (alpha=0.2) (enc) 


(6) 接着 添加 第 2 个 全 连接 层 ， 配 置 如 下 。 
口 单元 〈 结 点 ) : 100 
口 激活 函数 : 无 


# 第 2 个 全 连接 层 
enc = Dense(100) (enc) 


(7) 最 后 ， 创 建 一 个 Keras 模型 ， 并 指明 编码 网 络 的 输入 和 输出 。 
# 创建 模型 


model = Model (inputs=[input_layer], outputs=[enc]) 


编码 网 络 的 完整 代码 如 下 : 


def puilaq_encoqer () : 


编码 网 络 

input_layer = Input (shape=(64, 64, 3)) 

# 第 1 个 卷 积 块 

enc = Conv2D(filters=32, kernel_ size=5, strides=2, 


padding='same') (input_layer) 
enc = LeakyReLU (alpha=0.2) (enc) 
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# 第 2 个 卷 积 块 
enc = Conv2D(filters=64, kernel_ size=5, strides=2, padding='same') (enc) 
enc = BatchNormalization() (enc) 
enc = LeakyReLU(alpha=0.2) (enc) 


# 第 3 个 卷 积 块 
enc = Conv2D(filters=128, kernel_size=5, strides=2, 
padding='same') (enc) 

enc = BatchNormalization() (enc) 

enc = LeakyReLU (alpha=0.2) (enc) 


# 第 4 个 卷 积 块 
enc = Conv2D(filters=256, kernel_size=5, strides=2, 
padding='same') (enc) 

enc = BatchNormalization() (enc) 

enc = LeakyReLU(alpha=0.2) (enc) 


# 扁平 化 层 
enc = Flatten() (enc) 


# 第 1 个 全 连接 层 

enc = Dense(4096) (enc) 

enc = BatchNormalization() (enc) 
enc = LeakyReLU (alpha=0.2) (enc) 


# 第 2 个 全 连接 层 
enc = Dense(100) (enc) 


# 创建 模型 
model = Model (inputs=[input_layer], outputs=[enc]) 
return model 


这 样 就 创建 好 了 编码 网 络 的 Keras 模型 。 下 面 创建 生成 网 络 的 Keras 模型 。 


3.4.2 ”生成 网 络 


生成 网 络 是 CNN， 接 收 100 维 向 量 z， 输 出 维度 为 (64，64，3) 的 图 像 。 下 面 使 用 Keras 
框架 实现 生成 网 络 。 


实现 生成 网 络 的 步骤 如 下 。 
(1) 首先 创建 生成 网 络 的 两 个 输入 层 。 


latent_dims = 100 
num_classes = 6 


# 向 量 z 的 输入 层 


input_z_noise = Input (shape=(latent_ dims, )) 


# 条 件 变量 的 输入 层 


input_label = Input (shape= (num classes, )) 
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(2) 然后 将 两 个 输入 张 量 沿 通道 维度 进行 拼接 ， 如 下 所 示 。 
x = concatenate([input_z_noise, input_label]) 
这 一 步 会 拼接 张 量 。 

(3) 再 添加 一 个 全 连接 块 ， 配 置 如 下 。 

口 单元 〈 结 点 ): 2048 

口 输入 维度 : 106 


口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 
口 随机 失 活 系数 : 0.2 


x = Dense(2048, input_dim=latent_dims+num classes) (x) 
x = LeakyReLU (alpha=0.2) (x) 
et{0 2 ty 


(4) 接着 添加 第 二 个 全 连接 块 ， 配 置 如 下 。 


口 单元 〈 结 点 ): 16 384 
口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 
口 随机 失 活 系数 : 0.2 


Dense(256 * 8 * 8) (x) 
BatchNormalization() (x) 
LeakyReLU (alpha=0 .2) 
Dropout (0.2) (x) 


(5) 然后 改变 全 连接 层 输出 张 量 的 形状 ， 将 其 变 成 维度 为 (8， 


x = Reshape((8, 8, 256)) (x) 


XX xx 兴 


OO 


，256) 的 三 维 张 量 。 


该 层 会 生成 维度 是 (batch_size，8，8，256) 的 张 量 。 


(6) 接着 添加 一 个 上 采样 块 , 包含 一 个 上 采样 层 、 一 个 2D 卷 积 层 和 一 个 批 归 一 化 层 。 配 置 如 下 。 


口 上 采样 系数 : (2，2) 

口 过 滤器 数量 : 128 

口 卷 积 核 大 小 : 5 

口 填充 方式 : same 

口 是 否 使 用 批 归 一 化 : 是 ， 其 momentum 值 为 0.8 

口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 
UpSampling2D(size=(2, 2)) (x) 

Conv2D (filters=128, kernel_ size=5, padding='same') (x) 


BatchNormalization (momentum=0.8) (x) 
LeakyReLU (alpha=0.2) (x) 


xX x X x 
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6 Upsampling2D 操作 将 张 量 的 行 重复 x 次 ， 将 其 列 重复 次 。 


(7) 再 添加 一 个 上 采样 块 (和 上 一 个 类 似 )， 如 以 下 代码 所 示 。 其 配置 和 上 一 个 块 类 似 , 但 卷 


积 层 中 过 滤 需 的 数量 为 64。 


= Conv2D (filters=64, 


”x » x 


= LeakyReLU (alpha=0. 


(8) 然后 添加 最 后 一 个 上 采样 块 。 其 配置 和 上 一 个 类 似 , 但 卷 积 层 中 过 滤器 的 数量 为 3, 并] 


没有 使 用 批 归 一 化 。 


X = UpSampling2D (size= 
X = Conv2D(filters=3, 
x = Activation('tanh') 


= UpSampling2D (size= 


(2, 2)) (x) 
kernel_size=5, 


2) (x) 


(2, 2)) (x) 
kernel_size=5, 
(x) 


padding='same') (x) 


= BatchNormalization (momentum=0.8) (x) 


padding='same') (x) 


(9) 最 后 ， 创 建 Keras 模型 ， 并 指明 生成 网 络 的 输入 和 输出 。 


model = Model (inputs=[input_z_noise, 


生成 网 络 的 完整 代码 如 下 。 


def builgd_ generator(): 


使 用 如 下 定义 的 超 参 数 ， 创 建 一 个 生成 网 络 模型 


返回 : 生成 网 络 模型 
latent_dims = 100 
num classes = 6 


input_label], outputs=[x]) 


input_z_noise = Input (shape=(latent_dims,)) 
input_label = Input (shape= (num classes,)) 


x = concatenate([input_z_noise, 


input_label]) 


x = Dense(2048, input_dim=latent_dims + num classes) (x) 


x = LeakyReLU(alpha=0.2) (x) 
x = Dropout (0.2) (x) 

x = Dense(256 * 8 * 8) (x) 

x = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 
XS Dropoub GUO 


X = Reshape((8, 8, 256)) (x) 


x = UpSampling2D(size=(2, 2)) (x) 


x = Conv2D(filters=128, 


kernel_size=5, padding='same') (x) 


x = BatchNormalization (momentum=0.8) (x) 


HH 
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x = LeakyReLU (alpha=0.2) (x) 

x = UpSampling2D(size=(2, 2)) (x) 

xX = Conv2D(filters=64, kernel_ size=5, padding='same') (x) 
X = BatchNormalization (momentum=0.8) (x) 

x = LeakyReLU (alpha=0.2) (x) 

x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(filters=3, kernel_ size=5, padding='same') (x) 


x = Activation('tanh') (x) 


model = Model (inputs=[input_z_noise, input_label], outputs=[x]) 
return model 


这 样 就 创建 好 了 生成 网 络 。 下 面 编写 判别 网 络 的 代码 。 


3.4.3 ”判别 网 络 
本 项 目 使 用 的 判别 网 络 是 CNN。 下 面 使 用 Keras 框架 来 实现 。 
实现 判别 网 络 的 步骤 如 下 。 
(1) 首先 创建 两 个 输入 层 ， 因 为 该 判别 网 络 需要 处 理 两 个 输入 。 


# 确定 超 参 数 
# 输入 图 像 的 形状 


input_shape = (64, 64, 3) 
# 输入 条 件 变 量 的 形状 
label_shape = (6,) 

# 两 个 输入 层 


image_input = Input (shape=input_shape) 
label_input = Input (shape=label_shape) 


(2) 然后 添加 一 个 2D 卷 积 块 (Conv2D+ 激 活 函 数 )， 其 配置 如 下 。 


口 过 滤器 数量 : 64 

口 卷 积 核 大 小 : 3 

口 步 长 : 2 

口 填充 方式 : same 

口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 


X = Conv2D(64, kernel size=3, strides=2, 
padding='same') (image_input) 
x = LeakyReLU (alpha=0.2) (x) 


(3) 接着 将 label input 扩展 成 形状 为 (32，32，6) 的 张 量 。 


label_inputl = Lambda (expand_ label_input) (label_input) 
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expand_label_input 函数 如 下 所 示 。 


# expand_label_input 函数 

def expand_label_input (x): 
X = K.expangd_dims (x, axis=1) 
X = K.expangd_ dims (x, axis=1) 
的] 
return x 


该 函数 将 张 量 的 维度 从 (6，, ) 转换 成 (32，32，6)。 
(4) 然后 将 转换 后 的 标签 张 量 和 上 一 个 卷 积 层 的 输出 沿 通道 维度 进行 拼接 ， 如 下 所 示 。 


X = concatenate([x, label_ inputl1], axis=3) 


(5) 添加 一 个 卷 积 块 (2D 卷 积 层 + 批 归 一 化 + 激活 函数 )， 配 置 如 下 。 


口 过 滤器 数量 : 128 

口 卷 积 核 大 小 : 3 

口 步 长 : 2 

口 填充 方式 : same 

口 是 否 使 用 批 归 一 化 : 是 

口 激活 函数 : alpha 值 为 0.2 的 LeakyReLU 
xX = Conv2D(128, kernel_size=3, strides=2, padding='same') (x) 
x = BatchNormalization() (x) 
x = LeakyReLU (alpha=0.2) (x) 


(6) 再 添加 两 个 卷 积 块 ， 如 下 所 示 。 


Conv2D(256, kernel_ size=3, strides=2, padding='same') (x) 
BatchNormalization() (x) 
x = LeakyReLU (alpha=0.2) (x) 


x% 


X = Conv2D(512, kernel_ size=3, strides=2, padding='same') (x) 
X = BatchNormalization() (x) 
x = LeakyReLU (alpha=0.2) (x) 


(7) 然后 添加 一 个 扁平 化 层 。 


x = Flatten() (x) 


(8) 接着 添加 一 个 全 连接 层 (分 类 层 )， 输 出 概率 值 。 


X = Dense(1, activation='sigmoid') (x) 


(9) 最 后 ， 创 建 一 个 Keras 模型 ， 并 指明 判别 网 络 的 输入 和 输出 。 


model = Model (inputs=[image_input, label_input], outputs=[x]) 


判别 网 络 的 完整 代码 如 下 。 
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def puildq discriminator(): 
使 用 如 下 定义 的 超 参 数 ， 创 建 一 个 判别 网 络 模 型 
返回 : 判别 网 络 模 型 
input_shape = (64, 64, 3) 
label_shape = (6,) 
image_input = Input (shape=input_shape) 
label_input = Input (shape=label_shape) 


Conv2D(64, kernel_ size=3, strides=2, padding='same') (image_input) 
LeakyReLU (alpha=0 .2) (x) 


” 
Il 


外 
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label_inputl = Lambda (expand_ label input) (label_input) 

X = concatenate([x, label_inputl1l], axis=3) 

4 Conv2D(128, kernel_ size=3, strides=2, padding='same') (x) 
x = BatchNormalization() (x) 

x = LeakyReLU (alpha=0.2) (x) 


Conv2D(256, kernel_ size=3, strides=2, padding='same') (x) 
BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


” 
1l 


外 
Il 


X = Conv2D(512, kernel_ size=3, strides=2, padding='same') (x) 
X = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


x = Flatten() (x) 
X = Dense(1, activation='sigmoid') (x) 


model = Model (inputs=[image_input, label_input], outputs=[x]) 
return model 


这 样 就 创建 好 了 编码 网 络 、 生 成 网 络 和 判别 网 络 。 下 面 把 它们 整合 起 来 ， 训 练 网 络 。 


3.5 ”训练 cGAN 
训练 人 脸 老化 cGAN 分 3 步 。 


(1) 训练 cGAN。 
(2) 潜在 问 量 初步 近似 。 
(3) 优化 潜在 向 量 。 


下 面 依次 介绍 这 些 步 又 。 


3.5.1 训练 cGAN 
首先 训练 生成 网 络 和 判别 网 络 ， 步 又 如 下 。 
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(1) 首先 指定 训练 所 需 参 数 。 


# 定义 超 参 数 

data_dir = "/path/to/dataset/directory/" 
wikr. dir. = Os.path.joiii(data dir” "wiki erop") 
epochs = 500 

batch_ size = 128 

image_shape = (64, 64, 3) 

z_shape = 100 

TRAIN_GAN = True 

TRAIN_ENCODER = False 

TRAIN_GAN_WITH_FR = False 
fr_image_shape = (192, 192, 3) 


(2) 接着 定义 训练 要 用 的 优化 器 。 这 里 使 用 Keras 的 Adam 优化 器 。 初 始 化 优化 器 ,代码 如 下 


所 示 。 


# 定义 优化 器 

# 判别 网 络 使 用 的 优化 器 

dis_optimizer = Adam(lr=0.0002, beta_1=0.5, beta 2=0.999， 
epsilon=10e-8) 


# 生成 网 络 使 用 的 优化 器 
gen_optimizer = Adam(lr=0.0002, beta_1=0.5, beta 2=0.999, 
epsilon=10e-8) 


# 对 抗 网 络 使 用 的 优化 器 
adversarial_ optimizer = Adam(lr=0.0002, beta_ 1=0.5, beta 2=0.999， 
epsilon=10e-8) 


对 于 所 有 优化 器 , 设置 学 习 速 率 为 0.0002、beta_1 值 为 0.5、beta_2 值 为 0.999、epsilon 
值 设 为 10e-8。 


(3) 然后 加 载 生 成 网 络 和 判别 网 络 并 编译 。 在 Keras 中 ， 网 络 必须 经 过 编译 才能 进行 训练 。 
# 构建 并 编译 判别 网 络 


discriminator = build discriminator() 
discriminator.compile(loss=['binary_crossentropy'], 
optimizer=dis_optimizer) 
# 构建 并 编译 生成 网 络 
generator = build generator1 () 
generator.compile(loss=['binary_crossentropy'], 
optimizer=gen_optimizer) 


编译 网 络 时 ,使 用 binary_crossentropy 作为 损失 函数 。 


(4) 然后 构建 对 抗 模型 并 编译 ， 如 下 所 示 。 
# 构建 对 抗 模型 并 编译 


discriminator.trainable = False 
input_z_noise = Input (shape=(100,)) 
input_label = Input (shape=(6,)) 
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recons_images = generator( [input_z_noise，input_label]) 

valid = qiscriminator ( [recons_images，input_label]) 

adversarial model = Model (inputs=[input_z_noise, input_label], 
outputs=[valid]) 

adversarial model.compile(loss=['binary_crossentropy'], 
optimizer=gen_optimizer) 


编译 对 抗 模型 时 ， 使 用 binary_crossentropy 作为 损失 函数 ， 使 用 gen_optimizer 
作为 优化 天 。 


(5) 接着 添加 TensorBoard 以 存储 损失 ， 如 下 所 示 。 


tensorboard = TensorBoard(log_dir="logs/{}".format (time.time())) 
tensorboard.set_model (generator) 


tensorboard.set_model (discriminator) 


(6) 然后 使 用 3.3 节 定 义 的 10ag_gata() 函数 加 载 全 部 图 像 "。 


images, age_list = load data(wiki dir=wiki_dir, dataset="wiki") 


(7) 接着 将 年 龄 数值 转换 成 年 龄 类 别 ， 如 下 所 示 。 
# 将 年 龄 转换 为 类 别 变 量 
age_cat = age_to_category (age_list) 
age_to_category 困 数 的 定义 如 下 。 
# 该 函数 将 年 龄 转换 为 相应 的 类 别 


def age_to_category (age_list): 
age_list1 = [] 


for age in age_1list: 
if 0 < age <= 18: 
age_category = 0 
elif 18 < age <= 29: 
age_category = 1 
elif 29 < age <= 39: 
age_category = 2 
elif 39 < age <= 49: 
age_category = 3 
elif 49 < age <= 59: 
age_category = 4 
elif age >= 60: 
age_category = 5 


age_listl.append (age_category) 
return age_listl1 


age_cat 的 输出 如 下 所 示 。 


Q@ 这 里 加 载 的 实际 上 应 该 是 图 像 的 路 径 。 一 一 译 者 注 


将 年 龄 类 别 转 换 成 独 热 编码 向 量 。 
# 并 且 将 年 龄 类 别 转换 为 独 热 编码 向 量 


final_age_ cat = np.reshape (np.array (age_cat), [len(age cat), 1]) 
classes = len(set (age_cat)) 
y = to_categorical (final_age cat, num classes=len(set (age_cat))) 


年 龄 类 别 转换 成 独 热 编 码 向 量 之 后 ，y 值 应 如 下 所 示 。 


[lO Ls O00 0 0 0; 
上 
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了 的 形状 应 为 (total_values，5)。 


(8) 然后 加 载 所 有 图 像 ， 并 创建 包含 所 有 图 像 的 ndarray。 
# 读 取 所 有 图 像 ， 并 创建 一 个 ndarray 


loaded_ images = load_ images (wiki_dir, images, (image_shape[0], image_shape[1])) 


load_images () 国 数 的 定义 如 下 。 


def load_ images (data_dir, image paths, image_shape): 
images = None 


for i, image path in enumerate (image_ paths): 
print() 
try 
# 加 载 图 像 
loaded_ image = image.load_ img( 
os.path.join(data _ dir, image path), target_size=image_shape) 


# 将 PIL 图 像 转换 为 NumPy ndarray 
loaded_ image = image.img_ to_array (loaded_ image) 


# 添加 另外 一 个 维度 ( 即 批 次 的 维度 ) 


loaded_image = np.expand _ dims (loaded image, axis=0) 


# 将 所 有 图 像 拼 接 为 一 个 张 量 
if images is None: 
images = loaded image 
else: 
images = np.concatenate([images, loaded image], axis=0) 
except Exception as e: 
Bel (“ErEOr: "Ly E) 


return images 
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loaded_images 包含 的 值 如 下 所 示 。 


Wb dO S222 Sa] 
08 T2830 19s 
99% 24 480.. 


9 2 9 
96 "T123178.: 
95,s 22 a BLD] 


[OL6s "197. :2203 
2 98 204 
218% 4199,"205.. 


E33 3 

0; 77 这 这 

A | 
bls D3 B00 63 

47. 74. 57 

49. 2 5 

345 ‘06 


(9) 接着 创建 一 个 for 循环 ， 其 运行 次 数 应 与 指定 的 训练 轮 数 一 致 ， 如 下 所 示 。 


for epoch in range(epochs) : 
print ("Epoch:{}".format (epoch)) 


gen_losses [] 
dis_losses = [] 


number_of_batches = int(len(loaded images) / batch size) 
print ("Number of batches:", number_of_ batches) 


(10) 然后 在 该 循环 内 部 再 创建 一 个 循环 ， 其 运行 次 数 应 与 num_pbatches 一 致 ， 如 下 所 示 。 


for index in range (number_of_batches): 
print ("Batch:{}".format (index + 1)) 


训练 判别 网 络 和 对 抗 网 络 的 完整 代码 都 会 放 在 该 循环 里 面 。 
(11) 接着 从 真实 数据 集中 采样 一 批 次 图 像 ， 并 采样 其 对 应 的 独 热 编 码 年 龄 向 量 。 


images_batch = loaded images[index * batch size: (index + 1) * batch_size] 
images_batch = images batch / 127.5 - 1.0 
images_batch = images_batch.astype (np.float32) 


y_batch = yl[index * batch_ size: (index + 1) * batch sizel] 
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image_batch 的 形状 应 为 (batch_size，64，64，3)，y_batch 的 形状 应 为 (batch_ 


size, 6)。o 


(12) 从 高 斯 分 布 中 采样 一 批 次 的 噪声 向 量 ， 如 下 所 示 。 


Z_noise = np.random.normal (0, 1, size=(batch size, z_shape)) 


(13) 然后 使 用 生成 网 络 生成 假 图 像 。 请 注意 ， 生 成 网 络 还 未 训练 过 。 


initial_recon images = generator.predict_on batch([z_noise, y_batch]) 


生成 网 络 接收 两 个 输入 ，z_noise 和 y_batch, 分 别 是 第 (11) 步 和 第 (12) 步 创建 的 。 


(14) 下 面 使 用 真实 图 像 和 假 图 像 训练 判别 网 络 。 


d_loss_real = discriminator.train on batch([images_batch, y_batch], real_labels) 
d_loss_fake = discriminator.train_ on batch( 
[initial_recon images, y_batch], fake_labels) 


上 述 代 码 使 用 一 批 次 的 图 像 训练 判别 网 络 。 判 别 网 络 每 一 步 会 使 用 一 批 次 的 采样 进行 训练 。 


(15) 然后 训练 对 抗 网 络 。 锁 定 判别 网 络 ， 只 训练 生成 网 络 。 


再 次 从 高 斯 ( 正 态 ) 分 布 中 采样 一 批 次 的 噪声 向 量 
Z_noise2 = np.random.normal (0, 1, size=(batch_ size, z_shape)) 


采样 一 批 次 的 随机 年 龄 数值 


random_labels = np.random.randint (0, 6, batch size) .reshape(-1, 1) 


将 随机 年 龄 数值 转换 成 独 热 编码 

zandqom_labels = to_categorical (random labels, 6) 

训练 生成 网 络 

g_loss = adversarial model.train on batch([z_noise2, 

sampled_ labels], [1] * batch_ size) 


上 述 代码 会 使 用 一 批 次 的 输入 训练 生成 网 络 。 对 抗 模 型 的 输入 是 z_noise2 和 random_ 
labels。 


(16) 接着 计算 损失 并 输出 。 


d_loss = 0.5 * np.add(d_loss_real, d_loss_fake) 
print ("gd_loss:{}".format (d_loss)) 
print("g_loss:{}".format (g_loss)) 

# 将 损失 添加 到 相应 列表 中 

gen_losses.append(g_loss) 
dis_losses.append(d_loss) 


(17) 然后 将 损失 写 人 TensorBoard， 以 进行 可 视 化 。 


write_log(tensorboard, 'g_loss', np.meanl(gen_ losses), epoch) 
write_log(tensorboard, 'd_loss', np.meanl(dis_losses), epoch) 
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(18) 每 训练 10 轮 ， 采样 并 保存 图 像 ， 如 下 所 示 。 


9 


if epoch % 10 == 
images_batch 
images_batch 
images_batch 


loadeqd images[0:batch_ size] 
images_batch / 127.5 - 1.0 
images_batch.astype (np.float32) 


| 


y_batch 
z_noise 


yl0:batch_size] 
np.random.normal (0, 1, size=(batch size, z_shape)) 


gen_images = generator.predict_ on batch([z_noise, y_batch]) 


for i, img in enumerate(gen images[:5]): 
save_rgb_ img (img, path="results/img_{}_{}.png".format (epoch, i)) = 
将 该 代码 块 放 入 轮 循环 中 ， 每 10 轮 生成 一 批 次 的 假 图 像 并 写 入 结果 目录 。 其 中 save_ 
rgb_img () 是 通用 函数 ， 其 定义 如 下 。 


def save_rgb_ img (img, path): 


保存 一 张 rgb 图 像 


fig 三 : BIEyELigUret() 
ax = fig.adqd subplot(1, 1, 1) 


邮 ax.imshow (img) 
电 ax.axis ("off") 
ax.set_title("Image") 


plt.savefig (path) 
plt.close() 


(19) 最 后 ， 添 加 如 下 代码 来 保存 两 个 模型 。 
# 只 保存 权重 


generator.save weights ("generator.h5") 
discriminator.save weights ("discriminator.h5") 


# 同时 保存 架构 和 权重 
generator.save ("generator.h5) 
discriminator.save("discriminator.h5") 


执行 完 本 节 中 的 代码 ， 便 完成 了 生成 网 络 和 判别 网 络 的 训练 。 完 成 上 述 步骤 之 后 ,生成 网 络 
会 开始 生成 模糊 的 人 脸 图 像 。 下 面 训练 用 于 潜在 向 量 初步 近似 的 编码 模型 。 


3.5.2 ”潜在 向 量 初步 近似 


前 面 讲 过 ，cGAN 并 不 能 学 习 从 图 像 到 潜在 向 量 的 反 向 映射 。 而 编码 网 络 可 以 学 习 这 种 反 向 
映射 ， 并 生成 潜在 向 量 ， 针 对 目标 年 龄 生成 人 脸 图 像 。 下 面 训练 编码 网 络 。 


前 面 定 义 了 训练 所 需 的 超 参 数 。 下 面 训练 编码 网 络 ， 步 又 如 下 。 
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(1) 首先 构建 编码 网 络 。 添 加 以 下 代码 ， 构 建 并 编译 编码 网 络 。 
# 构建 编码 网 络 


encoder = build encoder() 
encoder.compile(loss=euclidean distance loss, optimizer='adam') 


至 此 , 还 未 定义 euclidean_distance_loss 困 数 。 下 面 定 义 该 函数 ,并 在 构建 编码 网 
络 前 添加 它 。 


def euclidean distance_loss (y_true，yYy_pred) : 


欧 氏 距离 损失 


return K.sqrt (K.sum(K.squarel(y_pred - y_true), axis=-1)) 


(2) 然后 加 载 生 成 网 络 ， 如 下 所 示 。 


generator.load weights ("generator.h5") 
上 一 步 成 功 训练 并 保存 了 生成 网 络 的 权重 值 ， 这 里 加 载 这 些 权重 值 。 
(3) 接着 采样 一 批 次 的 潜在 向 量 ， 如 下 所 示 。 


z_i = np.random.normal (0, 1, size=(1000, z_shape)) 


(4) 然后 采样 一 批 次 的 随机 年 龄 数字 ， 并 将 其 转换 成 独 热 编码 向 量 ， 如 下 所 示 。 


y = np.random.randint (low=0, high=6, size=(1000,), dtype=np.int64) 
num_classes = len(set(y)) 
y = np.reshape (np.array (y), [len(y), 1]) 


y = to_categorical(y, num classes=num classes) 
可 以 采样 任意 数量 。 这 里 采样 了 1000 个 值 。 
(5) 接着 添加 轮 循环 和 批 次 步骤 循环 ， 如 下 所 示 。 


for epoch in range(epochs) : 
print ("Epoch:", epoch) 


encoder_losses = [] 


number_of_batches = int(z_i.shape[0] / batch size) 
print ("Number of batches:", number_of_ patches) 
for index in range (number_of_batches): 

print ("Batch:", index + 1) 


(6) 从 1000 个 样本 中 采样 一 批 次 的 潜在 向 量 和 一 批 次 的 独 热 编码 向 量 ， 如 下 所 示 。 


z_batch = z_i[index * batch size: (index + 1) * batch sizel 
y_batch = ylindex * batch size: (index + 1) * batch sizel] 


(7) 接着 使 用 预 训练 的 生成 网 络 生成 假 图 像 。 
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generated_images = generator.predict_on batch([z_batch, y_batch]) 


(8) 然后 使 用 生成 网 络 生 成 的 图 像 训练 编码 网 络 。 


encoder_loss = encoder.train on batch(generated_ images, z_batch) 


(9) 每 轮训 练 过 后 ， 将 编码 网 络 损 失 写 人 TensorBoard 中 ， 如 下 所 示 。 


write_log(tensorboard, "encoder_loss", np.mean(encoder_ losses), epoch) 


(10) 最 后 ， 添 加 以 下 代码 保存 训练 好 的 编码 网 络 。 


encoder.save _ weights ("encoder.h5") 


至 此 ， 训 练 过 的 编码 网 络 可 以 生成 初始 潜在 向 量 了 。 下 面 介 绍 如 何 优化 潜在 向 量 近 似 。 


3.5.3 ”潜在 向 量 优化 


前 面 成 功 训 练 了 生成 网 络 、 判 别 网 络 以 及 编码 网 络 。 下 面 实现 人 脸 识 别 ( face recognition， 
FR )。 对 于 给 定 的 输入 ， 人 脸 识别 网 络 生成 一 个 128 维 的 租 入 。 


操作 步骤 如 下 。 
(1) 首先 构建 编码 网 络 和 生成 网 络 ， 并 加 载 其 权重 值 。 


encoder = build_encoder() 
encoder.load weights ("encoder.h5") 


# 加 载 生 成 网 络 


generator.load weights ("generator.h5") 


(2) 然后 创建 一 个 网 络 ， 将 图 像 形 状 从 (64，64，3) 转 换 成 (192，192，3)， 如 下 所 示 。 
# 首先 定义 需要 调用 的 所 有 函数 


def build image_resizer(): 
input_layer = Input (shape=(64, 64, 3)) 


resized_images = Lambda(lambda x: K.resize_images ( 
x, height_factor=3, width factor=3, 
data_format='channels_last')) (input_layer) 


model = Model (inputs=[input_layer], outputs=[resized_ images]) 
return model 


image_resizer = build image_ resizer() 
image_resizer.compile(loss=loss, optimizer='adam') 


图 像 的 高 度 和 宽度 需要 大 于 150 像素 才能 使 用 FaceNet。 可 用 上 面 的 网 络 将 图 像 转换 成 理 
想 的 格式 。 
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(3) 构建 人 脸 识别 模型 。 


# 人 脸 识别 模型 

fr_model = build_ fr model (input_shape=fr_image_shape) 
fr_model.compile(loss=loss, optimizer="adam") 

有 关 buila_fr_ modqel() 困 数 的 更 多 信息 ， 请 访问 : https://github.com/PacktPublishing/ 
Generative-Adversarial Networks-Projects/Age-cGAN/main.py。 


(4) 接着 创建 男 一 个 对 抗 模型 。 该 模型 含 3 个 网 络 : 编码 网 络 、 生 成 网 络 ， 以 及 人 脸 识别 模型 。 


(5) 


(6) 


将 人 脸 识别 网 络 设置 为 “不 可 训练 ” 


fr_ modqel.trainable = False 


输入 层 
input_image = Input (shape=(64, 64, 3)) 
input_label = Input (shape=(6,)) 


使 用 编码 网 络 和 生成 网 络 
latent0 = encoder (input_image) 
gen_images = generator([latent0, input_label]) 


将 图 像 缩 放 至 所 需 的 形状 

resized_images = Lambda(lambda x: K.resize_images!( 
gen_images, height_factor=3, width_ factor=3, 
data_format='channels_last')) (gen_ images) 

embeddings = fr_model (resized_ images) 


# 创建 一 个 Keras 模型 ， 并 确定 网 络 的 输入 和 输出 
fr_adversarial model = Model (inputs=[input_image, input_labell], 
outputs=[embeddings]) 


# 编译 模型 
fr_adversarial model.compile(loss=euclidean distance loss, 
optimizer=adversarial_optimizer) 


添加 轮 循环 ， 以 及 该 循环 下 的 批 次 步骤 循环 ， 如 下 所 示 。 


for epoch in trange(epochs) : 
print ("Epoch:", epoch) 
number_of_batches = int (len(loaded images) / batch size) 
print ("Number of batches:", number_of_ patches) 
for index in range (number_of_batches): 
print ("Batch:", index + 1) 


然后 从 真实 图 像 的 列表 中 采样 一 批 次 的 图 像 。 


# 采样 并 进行 归 一 化 处 理 

images_batch = loaded images[index * batch size: (index + 1) * patch sizel] 
images_batch = images_batch / 255.0 

images_batch = images_batch.astype (np.float32) 

# 采样 一 批 次 年 龄 的 独 热 编码 向 量 

y_batch = ylindex * batch size: (index + 1) * pbatch sizel] 
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(7) 接着 使 用 FR 网 络 生成 真实 图 像 的 岩 入 。 


images_batch resized = image_resizer.predict_on batch(images_batch) 
real_embeddings = fr_model.predict_ on batch(images_batch resized) 


(8) 最 后 ， 训 练 该 对 抗 模型 ， 即 训练 编码 网 络 和 生成 网 络 。 


reconstruction loss = fr adversarial model.train on batch([images_batch, y_batch], 
real_embeddings) 


(9) 将 重 构 的 损失 写 人 TensorBoard 中 ， 以 便 进 行 可 视 化 。 
# 将 重 构 损 失 写 入 Tensorboard 中 
write_log(tensorboard, "reconstruction loss", 
reconstruction_ loss, index) 
(10) 保存 两 个 网 络 的 权重 。 
# 保存 两 个 网 络 的 优化 后 的 权重 


generator.save weights ("generator_optimized.h5") 
encoder.save _ weights ("encoder_ optimized.h5") 


祝贺 ! 成 功 训 练 了 用 于 实现 人 脸 老化 的 Age-cGAN。 


3.5.4 ”损失 可 视 化 
启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 。 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ， 如 图 3-3 所 示 。 
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TensorBoard SCALARS GRAPHS INACTVEv C .MO) 


Show data download links Q Filter tags (regular expressions supported) 
lgnore outliers in chart scaling 
discriminator_loss 1 


Tooltip sorting method: default 
OCS discriminator_ loss 


Smoothing 0.454 -| 
PE 一 和 
25 0.450 
Horizontal Axis 0.446 -| 
STEP RELATIVE WALL 0.442 | 


0 2 4 6 8 10 12 14 
Runs 5 三 回 » 1546973138.299 wv CSV JSON 


Write a regex to filter runs 


人 〇 1546973138.2998514 generator_loss 


generator_loss 


2 4 6 8 10 12 14 


0 
FP ee 
向 二 一 扣 呈 占 4 runto download vv CSV JSON 


TOGGLE ALL RUNS 


logs 


图 3-3 ”两 种 损失 的 曲线 图 

这 些 曲 线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 ， 因 为 已 经 没 

有 提升 的 可 能 了 。 如 果 损 失 不 断 提 高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参数 以 获得 更 好 的 结果 。 
如 果 损 失 在 逐渐 降低 ， 就 继续 训练 模型 。 


3.5.5 ”图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 果 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 3-4 )。 
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INACTIVE v 人 内 OO 


TensorBoard SCALARS GRAPHS 
Search nodes. Regexes supported Main Graph Auxiliary Nodes 
回 Fitto Screen E23 ESwelntialized0-39] 
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量 ”Downioad PNG 2 4 、 = 
sa wy. 
activation_2 | — 和 i 
Run (1) 1546973138.2998514 i; [7] S os 2 让 en 
1 i a 
Session runs CE 三 ma) 二 
0 二 
2 、 EE — 
Upload Choose File EE (C3) 2 
TS \ | 
(BB Trace inputs Cs) 八国 国 := 
/ / i 
Color 图 structure # 2 
国友 Ga 
© ps ee 人 i 
© XLA cluster > 由 
© computetime 本 
© wemoy Ca 
© TPu compatibility | 4 
colors 。 same substruct Rs 
Ga ED: :- 
所 uiquesubstruct / 
| 
(ee ) Cs) 
| 
一 一 一 一 一 (saveu2] 
v closelegend / ! 
Graph (*=expandable) ED: i wa ma 
3 | 上 En 
Namespace+? \ 
OpNode2 \ / 
> Unconnected serles* 2 人 Case ): Err 
Connected series* ? \ 
已 Constant2 
四 summay? / / 
> ‘Dtelow a ? 2 EE Ce 
i Control dependency edge ? We \ pd 
—» Referenceedge? = 3 " 从 


图 3-4 各 图 中 的 张 量 和 不 同 运 算 的 流 


3.6 ”Age-cGAN 的 实际 应 用 
人 脸 老 化 在 许多 行业 和 消费 者 应 用 中 都 有 广泛 应 用 。 


口 跨 年 龄 人 脸 识别 。 该 技术 可 用 于 安全 性 应 用 ， 比 如 手机 设备 解锁 或 桌面 电脑 解锁 。 目 前 
人 脸 识别 系统 存在 无 法 随时 间 更 新 的 问题 。 使 用 Age-cGAN 的 跨 年 龄 人 脸 识别 系统 的 生 
命 周 期 会 更 长 。 

口 寻找 失踪 儿童 。 这 是 Age-cGAN 的 一 个 有 趣 应 用 。 儿 童 随 着 年 龄 的 增长 ， 其 面部 特征 会 

发 生变 化 ， 也 就 更 难以 辨识 。Age-cGAN 可 以 模拟 特定 年 龄 的 人 脸 。 

口 娱乐 。 例 如 某 些 手机 应 用 可 以 呈现 并 分 享 某 个 朋友 在 特定 年 龄 的 照片 。 

口 电影 中 的 面部 特效 。 人 工 模拟 人 物 的 老年 面容 既 枯燥 又 耗 时 .Age-cGAN 可 以 加 速 该 过 程 ， 
并 能 降低 创建 和 模拟 人 脸 的 成 本 。 
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3.7 小 结 


本 章 介 绍 了 Age-cGAN 及 其 架构 ,然后 介绍 了 如 何 构 建 项 目 , 以 及 Age-cGAN 的 Keras 实现 ， 
接着 使 用 来 自 维 基 百 科 的 剪裁 后 的 数据 集训 练 了 Age-cGAN, 并 讲解 了 Age-cGAN 的 3 个 训练 阶 
段 。 最 后 讨论 了 Age-cGAN 的 实际 应 用 。 


下 一 章 将 使 用 GAN 的 另 一 个 变 体 DCGAN 来 生成 动画 人 物 。 


第 4 章 


使 用 DCGAN 生成 动画 人 物 


众所周知 , 卷 积 层 非 常 擅长 处 理 图 像 。 例 如 Inception、AlexNet、 视觉 几何 组 (visual geometry 
group，VGG ) 和 ResNet 等 神经 网 络 的 卷 积 层 可 以 高 效 学 习 边 缘 、 形 状 、 复 杂 对 象 等 很 多 重要 特 
征 。Ian Goodfellow 等 人 在 论文 “Generative Adversarial Nets” 中 提出 了 使 用 全 连接 层 的 GAN。 
最 初 的 GAN 没有 使 用 复杂 的 神经 网 络 , 比如 CNN 、RNN 和 LSTM。 DCGAN 的 发 展 向 使 用 CNN 
生成 图 像 迈 出 了 重要 一 步 。 DCGAN 使 用 卷 积 层 替 代 全 连接 层 。 这 是 由 AlecRadford 、Luke 、Metz 
和 Soumith Chintala 等 研究 者 在 论文 “Unsupervised Representation Learning with Deep Convolutional 
Generative Adversarial Networks” 中 提出 的 。 此 后 DCGAN 便 广 泛 应 用 于 各 种 图 像 生成 任务 中 了 。 
本 章 使 用 一 种 DCGAN 架构 生成 动画 人 物 。 


本 章 将 讨论 以 下 主题 。 


口 DCGAN 简介 

口 GAN 的 架构 细节 

口 创建 项 目 

口 准备 训练 数据 集 

口 用 Keras 实现 可 生成 动画 人 物 的 DCGAN 
口 在 动画 人 物 数据 集 上 训练 DCGAN 

口 评估 模型 

口 通过 超 参数 优化 网 络 

口 DCGAN 的 实际 应 用 


4.1 DCGAN 简介 


无 论 是 进行 图 像 分 类 还 是 检测 图 像 中 的 目标 ，CNN 在 计算 机 视觉 任务 中 表现 不 俗 。 人 研究 者 
从 CNN 对 图 像 的 出 色 理 解 中 获得 启发 , 将 其 加 入 了 GAN 中 。 最 初 ， 官 方 GAN 论文 的 作者 只 引 
人 了 包含 全 连接 层 的 深度 神经 网 络 ( DNN )。GAN 的 原始 实现 中 没有 使 用 卷 积 层 。 早 期 GAN 中 
生成 网 络 和 判别 网 络 都 使 用 全 连接 隐藏 层 。 后 来 ， 一 些 论文 作者 提出 GAN 也 可 以 使 用 不 同 的 神 
经 网 络 架构 配置 。 
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DCGAN 扩展 了 将 卷 积 层 加 入 判别 网 络 和 生成 网 络 中 的 想法 .DCGAN 的 配置 和 普通 GAN 类 
似 ， 由 一 个 生成 网 络 和 一 个 判别 网 络 组 成 。 生 成 网 络 和 判别 网 络 都 是 包含 卷 积 层 的 DNN。 训 练 
DCGAN 和 训练 普通 GAN 类 似 。 第 1 章 介绍 了 GAN 中 的 各 个 网 络 参 与 一 个 非 合作 博弈 。 在 该 博 
弈 中 ， 判 别 网 络 将 错误 反 向 传播 给 生成 网 络 ， 生 成 网 络 使 用 该 错误 来 优化 其 权重 。 


稍 后 介绍 这 两 个 网 络 的 架构 。 


DCGAN 的 具体 架构 


前 面 提 过 ，DCGAN 的 两 个 网 络 都 使 用 卷 积 层 。 重 申 一 下 ，CNN 包含 卷 积 层 ， 其 后 是 归 一 化 
层 或 池 化 层 ， 之 后 是 激活 函数 。 在 DCGAN 中 , 判别 网 络 接收 图 像 ， 使 用 卷 积 层 和 池 化 层 对 其 进 
行 下 采样 , 然后 使 用 全 连接 分 类 层 将 图 像 分 类 为 真 的 或 假 的 。 生 成 网 络 从 潜在 空间 中 获取 随机 噪 
声 向 量 ， 然 后 通过 上 采样 机 制 进行 上 采样 ， 最 终生 成 一 张 图 像 。 隐 藏 层 使 用 Leaky ReLU 作为 激 
活 函 数 ， 并 且 使 用 系数 介 于 0.4 到 0.7 的 随机 失 活 来 避免 过 拟 合 。 

下 面 介绍 两 个 网 络 的 配置 。 

1. 配置 生成 网 络 


开始 之 前 先 看 一 下 生成 网 络 的 架构 见 图 4-1 )。 


图 4-1 一 个 生成 网 络 的 架构 
上 图 展示 了 生成 网 络 架 构 的 各 层 ， 以 及 生成 网 络 生成 一 张 分 辨 率 为 64x64x3 的 图 像 的 过 程 。 


DCGAN 的 生成 网 络 包含 10 层 。 它 使 用 跨 步 卷 积 层 来 提高 张 量 在 空间 中 的 分 辨 率 。 在 Keras 
中 , 将 上 采样 层 和 卷 积 层 组 合 在 一 起 等 同 于 一 个 蜂 步 卷 积 层 。 简 单 说 来 ,生成 网 络 接收 从 均匀 概 
率 分 布 中 采样 的 噪声 向 量 , 然后 不 断 对 其 进行 变换 ， 直 到 生成 最 终 的 图 像 。 换 言 之 , 生成 网 络 接 
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收 形状 为 (batch_size，100) 的 张 量 ， 输 出 形状 为 (patch_size，64，64，3) 的 张 量 。 
生成 网 络 各 层 的 配置 如 表 4-1 所 示 。 


表 4-1 
层 序 号 层 名 称 配 置 
1 输入 层 input_shape= (bakehssi2e, 100) ， 
output_shape= (batch_size，100) 
2 全 连接 层 neurons=2048, input_shape= (batch_size, 100), 


output_shape= (batch_size, 2048),activation='relu' 


neurons=16384,input_shape= (batch_ size, 100), 
3 全 连接 层 output_shape=(batch size, 2048), 
batch normalization=Yes,activation='relu' 


input_shape= (batch_size=16384) ， 


4 形状 变换 层 
人 output_shape= (batch_size，8，8，256) 
a size=(2, 2),input_shape=(batch size, 8, 8, 256), 
5 上 采样 层 区 
output_shape=(batch_size, 16, 16, 256) 
filters=128, kernel_size=(5, 5),strides=(1, 1), 
adding='same',input_shape=(batch size, 16, 16, 
6 2D 卷 积 层 Ra 3 Eo 
256),output_shape=(batch_ size, 16, 16, 
128),activation='relu' 
ps size=(2, 2),input_shape=(batch_ size, 16, 16, 128), 
7 上 采样 层 < 


output_shape= (batch_size, 32, 32, 128) 


filters=64, kernel_ size=(5, 5),strides=(1, 1), 
padding='same',activation=ReLU ， 

8 2D 卷 积 层 input_shape= (batch_size, 32, 32, 128), 
output_shape=(batch_ size, 32, 32, 64), 
activation='relu' 


i size=(2, 2),input_shape=(batch size, 32, 32, 64), 
9 上 采样 层 > . 
output_shape=(batch_ size, 64, 64, 64) 


filters=3,Kkernel_size=(5, 5),strides=(1, 1), 
padding='same',activation=ReLU, 

10 2D 卷 积 层 input_shape= (batch_size, 64, 64, 64), 
output_shape=(batch_ size, 64, 64, 3), 
activation='tanh' 


下 面 讲 解 张 量 是 如 何 从 第 一 层 流动 到 最 后 一 层 的 ,图 4-2 展示 了 不 同 层 的 输入 和 输出 的 形状 。 
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140650169613728 
input: (None, 100) 
dense 1: Dense 
output: (None, 2048) 
input: (None, 2048) 
re_lu_1: ReLU 
output: (None, 2048) 
input: (None, 2048) 
danse_ 2: Dense 
output: (None, 16384) 
input: (None, 16384) 
batch_normalization 204: BatchNormalization 
output: (None, 16384) 
input: (None, 16384) 
re_ lu 2: ReLU 
output: (None, 16384) 
input: (None, 16384) 
reshape 1: Reshape 
output: (None, 8, 8, 256) 
input: (None, 8, 8, 256) 
up_sampling2d_1: UpSampling2D 
output: (None, 16, 16, 256) 
input: (None, 16, 16, 256) 
conv2d 204: Conv2D 
output: (None, 16, 16, 128) 
input: (None, 16, 16, 128) 
re_lu_3: ReLU 
output: (None, 16, 16, 128) 
里 
input' (None, 16, 16, 128) 
up_sampling2d_2: UpSampling2D 
output: (None, 32, 32, 128) 
v 
input: (None, 32, 32, 128) 
conv3d_205: Conv3D 
output: (None, 32, 32, 64) 
v 
input: (None, 32, 32, 64) 
re lu 4: ReLU 
output: (None, 32, 32, 64) 
input: (None, 32, 32, 64) 
up_sampling2d 3: UpSampling2D 
output: (None, 64, 64, 64) 
input: (None, 64, 64, 64) 
conv3d_206: Conv3D 
output: (None, 64, 64, 3) 
input: (None, 64, 64, 3) 
activation 204: Activation 
output: (None, 64, 64, 3) 


图 4-2 不 同 层 的 输入 和 输出 的 形状 
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0 为 了 保证 该 配置 的 有 效 性 ， 需 要 使 用 TensorFlow 后 端 以 及 channels last 格式 。 


2. 配置 判别 网 络 
进行 下 一 步 之 前 ， 先 看 一 下 判别 网 络 的 架构 ( 见 图 4-3 )。 


i 


图 4-3 ”一 个 判别 网 络 的 架构 
上 图 展示 了 判别 网 络 架构 的 顶层 概况 。 


前 面 提 过 ， 判 别 网 络 是 包含 10 层 ( 可 以 添加 更 多 层 ) 的 CNN。 简 单 说 来 ， 它 接收 维度 为 
64x64x3 的 图 像 ， 使 用 2D 卷 积 层 对 其 进行 下 采样 ， 然 后 传递 给 全 连接 层 进行 分 类 。 判 别 网 络 输 
出 估 测 ， 判 断 给 定 图 像 是 真是 假 。 输 出 值 为 0 或 1， 输出 1 表示 判别 网 络 接收 的 图 像 为 真 ， 输 出 
0 表示 该 图 像 为 假 。 


判别 网 络 各 层 的 配置 如 表 4-2 所 示 。 


表 4-2 
层 序 号 层 名 称 配 置 

1 输入 层 RE 全 bd 
output_shape=(batch_ size, 64, 64, 3) 
filters=128,kernel_size=(5, 5),strides=(1, 1), 

2 2D 卷 积 层 Daqing 二 ABR 全 EC si2e; 64, 64, 
3),output_shape=(batch_ size, 64, 64, 
128),activation='leakyrelu',leaky_relu alpha=0.2 

上 oo0l1_size=(2, 2),input_shape=(batch size, 64, 64, 

3 最 大 池 化 层 p _size=( ) ,inpu p (batch_size 
128),output_shape=(batch_ size, 32, 32, 128) 
filters=256, Kernel_size=(3, 3),strides=(1, 1), 

4 2D 卷 积 层 Daddings, Valid Hnput Shape (Patch sie, 2 
128),output_shape=(batch_ size, 30, 30, 
256),activation='leakyrelu',leaky_relu _ alpha=0.2 
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( 续 ) 
层 序 号 层 名 称 配 置 
oOo0l1_size=(2, 2), input_shape=(batch size, 30, 30, 
5 最 大 池 化 层 3D > 
256), output_shape=(batch_ size, 15, 15, 256) 
filters=512, kernel_size=(3, 3),strides=(1, 1), 
adding='valid',input_shape=(batch_ size, 15, 15, 
6 2D 卷 积 层 Ee . 
256) ,output_shape=(batch_ size, 13, 13, 
512),activation='leakyrelu',leaky_relu alpha=0.2 
oOo0l1_size=(2, 2),input_shape=(batch size, 13, 13, 
7 最 大 池 化 层 沁 
512),output_shape=(batch_ size, 6, 6, 512) 
8 扁平 化 层 input_shape= (patehssize, By: 
output_shape=(batch_ size, 18432) 
neurons=1024,input_shape= (batch_ size, 18432), 
9 全 连接 层 output_shape=(batch size, 1024), 
activation='leakyrelu','leakyrelu_ alpha'=0.2 
i neurons=1,input_shape=(batch_ size, 1024), 
10 全 连接 层 S i es i 
output_shape=(batch_ size, 1),activation='sigmoid' 
、\ 二 猎 三 A = [=} = 一 | 户 AN AS [| A 
下 面 讲 解 张 量 是 如 何 从 第 一 层 流动 到 最 后 一 层 的 ,图 4-4 展 示 了 不 同 层 的 输入 和 输出 的 形状 。 


140650168816808 
input: (None, 64, 64, 3) 
conv2d_207: Conv2D 
output: (None, 64, 64, 128) 
input: (None, 64, 64, 128) 
leaky re lu 1: LeakyReLU 
output: (None, 64, 64, 128) 
v 
input: (None, 64, 64, 128) 
max_pooling2d_5: MaxPooling2D 
output: (None, 32, 32, 128) 
v 
input: (None, 32, 32, 128) 
conv2d_208: Conv2D 
oulput: (None, 30, 30, 256) 
input: (None, 30, 30, 256) 
leaky_re_lu_2: LeakyReLU 

output: (None, 30, 30, 256) 

input: (None, 30, 30, 256) 
max_pooling2d_6: MaxPooling2D 

output: (None, 15, 15, 256) 


图 4-4 不 同 层 的 输入 和 输出 的 形状 
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y 
input: (None, 15, 15, 256) 
conv2d 209: Conv2D 
output: (None, 13, 13, 512) 
input: (None, 13, 13, 512) 
leaky_re lu_ 3: LeakyReLU 
output: (None, 13, 13, 512) 
input: (None, 13, 13, 512) 
max_pooling2d_7: MaxPooling2D 
output: (None, 6, 6, 512) 
input: (None, 6, 6, 512) 
flatten_1: Flatten 
output: (None, 18432) 
input: (None, 18432) 
dense_3: Dense 
output: (None, 1024) 
input: (Nonc, 1024) 
leaky_re_Ilu_4: LeakyReLU 
output: (None, 1024) 
input: (None, 1024) 
dense 4: Dense 
output: (None, 1) 
input: (None, 1) 
activation 205: Activation 
output: (None, 1) 
图 44 ( 续 ) 


oD 为 了 保证 该 配置 的 有 效 性 ， 需 要 使 用 TensorFlow 后 端 以 及 channels last 格式 。 


4.2 创建 项 目 
前 面 已 经 克隆 或 下 载 了 本 书 所 有 章节 的 完整 代码 。 其 中 目录 Chapter04 包含 本 章 的 完整 代码 。 
执行 如 下 命令 创建 项 目 。 
(1) 首先 访问 父 目 录 ， 如 下 所 示 。 
cd Generative-Adversarial-Networks-Projects 
(2) 从 当前 目录 切换 到 Chapter04。 
cd Chapter04 
(3) 然后 为 本 项 目 创建 Python 虚拟 环境 。 
Virtualenv venv 


Virtualenv venv -p python3 # 创建 一 个 使 用 Python 3 解释 器 的 虚拟 环境 
virtualenv venv -p python2 # 创建 一 个 使 用 Python 2 解释 器 的 虚拟 环境 
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本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 
(4) 接着 启用 新 创建 的 虚拟 环境 。 


source venv/bin/activate 


启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 


(5) 然后 执行 如 下 命令 ， 安 装 requirements.txt 文 件 中 列 出 的 所 需 程 序 。 


pip install -r requirements.txt 


README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创 建 独立 的 虚拟 环境 来 解决 。 


这 样 就 成 功 创建 了 项 目 并 安装 了 所 需 的 依赖 程序 .下面 处 理 数据 集 ,包括 下 载 和 清洗 数据 集 
4.3 下载 并 准备 动画 人 物 数据 集 


训练 DCGAN 需要 用 到 包含 剪裁 好 的 人 物 面部 图 像 的 动画 人 物 数据 集 。 收集 该 数据 集 有 不 同 
的 方式 ,可 以 使 用 公开 的 数据 集 ， 也 可 以 在 不 违反 网 站 扑 取 规范 的 情况 下 自行 仆 取 。 本 章 候 取 图 
像 仅 用 于 教学 和 演示 。 本 章 使 用 息 虫 工具 gallery-dl 从 pixiv.net 上 疏 取 图 像 。 可 用 该 命令 行 工具 
从 pixiv.net、exhentai.org 、danbooru.donmai.us 等 网 站 上 下 载 图 像 集 。 


oO 


4.3.1 下 载 数据 集 
本 节 介绍 安装 依赖 程序 和 下 载 数据 集 的 各 个 步 又。 启用 为 本 项 目 创建 的 虚拟 环境 ,然后 执行 


以 下 命令 。 


(1) 执行 如 下 命令 下 载 gallery-dl。 
pip install --upgrade gallery-dl 
(2) 也 使 用 以 下 命令 安装 gallery-dl 的 最 新 开发 版 本 。 


pip install --upgrade 
https://github.com/mikf/gallery-dl/archive/master.zip 


(3) 如 果 以 上 命令 不 能 正常 运行 ， 请 按照 官方 软件 仓库 中 的 说 明 进行 操作 。 


# gallery-d1l 的 官方 Github 仓库 
https://github.com/mikf/gallery-dl1 


(4) 最 后 ， 执 行 以 下 命令 ， 使 用 gallery-dl 从 danbooru.donmai.us 上 下 载 图 像 。 


gallery-dl1 https://danbooru.donmai.us/posts?tags=face 
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下 载 图 像 ， 风 险 自 担 。 上 述 信 息 仅 用 于 教学 , 我 们 不 支持 非法 候 取 。 这些 图 像 是 
洗 由 所 有 者 托管 在 平台 上 的 ,我 们 未 获 版 权 。 如 想 商用 ,请 联系 网 站 所 有 者 或 所 用 
内 容 的 所 有 者 。 
4.3.2 ”探索 数据 集 
在 剪裁 或 缩放 图 像 之 前 ， 先 看 一 下 所 下 载 的 图 像 ( 见 图 4-5 )。 


图 4-5 部 分 下 载 图 像 


如 上 图 所 示 ,， 有 些 图 像 包含 了 身体 的 其 他 部 位 ,这些 部 位 不 应 出 现在 训练 图 像 中 。 下 面 从 这 
些 图像 中 剪裁 出 面部 ， 并 将 图 像 缩放 到 训练 所 需 的 大 小 。 


4.3.3 ”剪裁 及 缩放 训练 集 图 像 


下 面 将 图 像 中 的 面部 剪裁 出 来 。 所 使 用 的 工具 是 python-animeface， 这 是 一 个 开源 的 GitHub 
仓库 ， 可 以 通过 命令 行 自动 将 图 像 中 的 面部 剪裁 出 来 。 


剪裁 和 缩放 图 像 的 步骤 如 下 。 
(1) 首先 下 载 python-animeface。 


pip install animeface 


(2) 然后 导入 本 任务 所 需 模块 。 


import glob 
import os 
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import animeface 
from PIL import Image 


(3) 接着 定义 参数 。 


total_num_ faces = 0 


(4) 然后 对 所 有 图 像 依 次 进行 剪裁 和 缩放 。 


for index, filename in 
enumerate(glob.glob('/path/to/directory/containing/images/*.*')): 


(5) 在 循环 内 部 打开 当前 图 像 ， 并 检测 其 中 的 面部 。 


Es 
# 打开 图 像 


im = Image.open (filename) 


# 检测 面部 

faces = animeface.detect (im) 
except Exception as e: 

print ("Exception:{}".format (e)) 

continue 


(6) 接着 获取 图 像 中 检测 到 的 面部 的 坐标 。 
fp = faces[0] .face.pos 


# 获取 图 像 中 检测 到 的 面部 的 坐标 


coordinates = (fp.x, fp.y, fp.x+fp.width, fp.y+fp.height) 
(7) 从 图 像 中 剪裁 出 面部 。 
# 裁剪 图 像 


cropped_image = im.crop (coordinates) 


(8) 对 剪裁 出 来 的 面部 图 像 进行 缩放 ， 使 其 维度 为 (54，64) 。 


# 缩放 图 像 
cropped_image = cropped image.resize((64, 64), Image.ANTIALIAS) 


(9) 最 后 ， 将 剪裁 和 缩放 后 的 图 像 保存 到 目标 目录 。 
croppeqd_image.save("/path/to/directory/to/store/cropped/images/filename.png")) 
将 完整 代码 包装 成 Python 函数 ， 如 下 所 示 。 


import glob 
import os 


import animeface 
from PIL import Image 
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total_num_faces = 0 


for index, filename in 
enumerate(glob.glob('/path/to/directory/containing/images/*.*')): 
# 打开 图 像 并 检测 面部 
trys 
im = Image.open (filename) 
faces = animeface.detect (im) 
except Exception as e: 
print ("Exception:{}".format(e)) 
continue 


# 如 果 在 当前 图 像 中 没有 找到 面部 


if: Lenm(faces) :三 E 05 
print ("No faces found in the image") 
continue 


fp = faces[0] .face.pos 


获取 图 像 中 检测 到 的 面部 的 坐标 

coordinates = (fp.x, fp.y, fp.x+fp.width, fp.y+fp.height) 
剪裁 图 像 

cropped_image = im.crop (coordinates) 
缩放 图 像 


cropped_image = cropped_ image.resize((64, 64), Image.ANTIALIAS) 


呈现 经 过 剪裁 和 缩放 的 图 像 


cropped_image. show() 


将 图 像 保存 到 输出 目录 中 


cropped_image.save("/path/to/directory/to/store/cropped/images/filename.png")) 


print ("Cropped image saved successfully") 
total_num faces += 1 
print ("Number of faces detected till now:{}".format (total_ num faces)) 


print ("Total number of faces:{}".format (total_ num faces)) 


上 述 脚本 会 加 载 已 下 载 的 所 有 图 像 ， 使 用 python-animeface 库 检 测 面 部 ， 然 后 从 原始 图 像 中 
将 面部 剪裁 出 来 ,接着 会 将 剪裁 出 来 的 图 像 缩放 到 64x64 大 小 。 如 果 想 改变 图 像 维 度 ， 可 以 相应 
地 调整 生成 网 络 和 判别 网 络 的 架构 。 准 备 就 绪 后 ， 下 面 着 手 实现 网 络 。 


4.4 使 用 Keras 实现 DCGAN 


本 节 使 用 Keras 框架 实现 DCGAN。Keras 是 一 个 元 框架 ， 使 用 TensorFlow 或 者 Theano 作为 
后 端 。Keras 提供 了 操作 神经 网 络 的 高 级 别 API。 相 比 于 TensorFlow 等 低级 别 框架 ,Keras 拥有 一 
些 预 构建 的 神经 网 络 层 、 优 化 器 、 正 则 项 、 初 始 化 器 以 及 数据 预 处 理 层 , 可 进行 简单 的 原型 构建 。 
下 面 编写 生成 网 络 的 实现 代码 。 
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4.4.1 生成 网 络 


前 面 提 过 ， 生 成 网 络 包 含 一 些 2D 卷 积 层 、 一 些 上 采样 层 、 一 个 形状 变换 层 ， 以 及 一 个 批 归 
一 化 层 。 在 Keras 中 ， 层 可 以 实现 任何 运算 ,甚至 激活 函数 也 是 层 ， 可 以 像 普通 的 全 连接 层 一 样 
添加 到 模型 中 。 


实现 生成 网 络 的 步骤 如 下 。 


(1) 首先 创建 一 个 Keras 的 Sequential 模型 。 


gen model = Sequential() 


(2) 然后 添加 一 个 具有 2048 个 节点 的 全 连接 层 ， 以 及 一 个 激活 函数 tanh。 


gen_model.add (Dense (units=2048)) 
gen_model.add (Activation('tanh')) 


(3) 接着 添加 第 二 层 ， 一 个 具有 16 384 个 神经 元 的 全 连接 层 。 然 后 添加 一 个 批 归 一 化 层 ， 使 
用 默认 超 参 数 ， 设 置 激活 函数 为 tanh。 


gen_model.add (Dense (256*8*8)) 
gen_model.add (BatchNormalization()) 
gen_model.add (Activation('tanh')) 


第 二 个 全 连接 层 的 输出 是 形状 为 (16384，, ) 的 张 量 , 该 全 连接 层 的 神经 元 数量 相当 于 一 个 
形状 为 (256，8，8) 的 张 量 。 
(4) 再 添加 一 个 形状 变换 层 ， 将 上 一 层 的 张 量 形状 变换 为 (batch_size，8，8，256)。 
形状 变换 层 
gen_model.addq(Reshape((8，8，256)，input_shape=(256*8x8,，))) 
(5) 接着 添加 一 个 2D 上 采样 层 ， 将 形状 从 (8，8，256) 变 换 为 (16，16，256)。 上 采样 大 
小 为 (2，2) ， 即 把 张 量 的 大 小 增加 到 原来 的 两 倍 。 至 此 ， 已 有 256 个 形状 为 16x16 的 张 量 。 
gen_model.add(UpSampling2D(size=(2, 2))) 
(6) 然后 添加 一 个 2D 卷 积 层 。 该 层 会 使 用 特定 数量 的 过 滤器 对 张 量 进行 2D 卷 积 。 此 处 使 用 
64 个 过 滤器 ， 以 及 一 个 形状 为 (5，5) 的 卷 积 核 。 


gen_model.add (Conv2D(128, (5, 5), padding='same')) 
gen_model.add (Activation('tanh')) 


(7) 接着 添加 一 个 2D 上 采样 层 ， 将 张 量 的 形状 从 (batch_size，16，16，64) 变换 为 
(batch_ size，32，32，64)。 


TT 


gen_model.add (UpSampling2D(size=(2, 2))) 


一 个 2D 上 采样 层 将 张 量 的 行 和 列 分 别 重复 0 次 和 1 次。 
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(8) 然后 添加 第 2 个 2D 卷 积 层 ， 使 用 64 个 过 滤器 ， 以 及 一 个 大 小 为 (5，5) 的 卷 积 核 ， 设 置 
激活 函数 为 tanh。 


gen_model.add (Conv2D(64, (5, 5), padding='same')) 
gen_model.add (Activation('tanh')) 


(9) 接着 添加 一 个 2D 上 采样 层 ， 将 张 量 的 形状 从 (batch_size，32，32 ，64) 变换 为 
(batch_size, 64, 64, 64)6 


gen_model.add (UpSampling2D(size=(2, 2))) 
(10) 最 后 ， 添 加 第 3 个 2D 卷 积 层 ， 使 用 3 个 过 滤器 ， 以 及 一 个 大 小 为 (5，5) 的 卷 积 核 ， 设 
置 激活 函数 为 tanh。 


gen_model.add (Conv2D(3, (5, 5), padding='same')) 
gen_model.add (Activation('tanh')) 


生成 网 络 会 输出 形状 为 (batch_size，64，64，3) 的 张 量 。 这 些 张 量 中 的 单个 图 像 张 量 类 
似 于 维度 为 64x64 的 图 像 ， 具 有 红 、 绿 、 蓝 (RGB ) 3 个 通道 。 
将 生成 网 络 的 完整 代码 包装 成 Python 函数 ， 如 下 所 示 。 


def get_generator(): 
gen_ model = Sequential() 


gen_ model.add (Dense (input_dim=100, output_dim=2048)) 
gen_ model.add (LeakyReLU (alpha=0.2)) 


gen_ model.add(Dense(256 * 8 * 8) 
gen_ model.add (BatchNormalization()) 
gen_ model.add (LeakyReLU (alpha=0.2)) 


gen_ model.add (Reshape((8, 8, 256), input_shape=(256 * 8 * 8,))) 
gen_ model.add (UpSampling2D (size=(2, 2))) 


gen_model.add (Conv2D(128, (5, 5), padding='same')) 
gen_ model.add (LeakyReLU (alpha=0.2)) 


gen_ model.add (UpSampling2D (size=(2, 2))) 


gen_ model.add (Conv2D(64, (5, 5), padding='same')) 
gen_ model.add (LeakyReLU (alpha=0.2)) 


gen_ model.add (UpSampling2D(size=(2, 2))) 
gen_ model.add (Conv2D(3, (5, 5), padding='same')) 


gen_ model.add (LeakyReLU (alpha=0.2)) 
return gen model 


这 样 就 创建 好 了 生成 网 络 。 下 面 创建 判别 网 络 。 
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4.4.2 ”判别 网 络 


前 面 提 过 ， 判 别 网 络 包含 3 个 2D 卷 积 层 ， 每 个 后 面 都 跟着 一 个 激活 函数 ， 然 后 是 两 个 最 大 
池 化 层 。 判 别 网 络 的 末端 是 两 个 全 连接 层 ， 用 作 分 类 层 。 首 先 简单 介绍 一 下 判别 网 络 中 的 各 层 。 


口 所 有 卷 积 层 都 使 用 LeakyReLU 作为 激活 函数 ， 其 alpha 值 设置 为 0.2。 

口 卷 积 层 分 别 包含 128 个 、256 个 和 512 个 过 滤器 ， 其 卷 积 核 大 小 分 别 为 (5，5)、(3，3) 
和 (3，3)。 

口 卷 积 层 之 后 是 一 个 扁平 化 层 ， 将 输入 变换 为 一 维 张 量 。 

口 扁平 化 层 之 后 是 两 个 全 连接 层 ， 分 别 有 1024 个 神经 元 和 1 个 神经 元 。 

口 第 一 个 全 连接 层 使 用 LeakyReLU 作为 激活 函数 ， 第 二 个 使 用 sigmoid 作为 激活 函数 进行 
二 分 类 。 稍 后 训练 判别 网 络 判 别 图 像 的 真 假 。 


实现 判别 网 络 的 步骤 如 下 。 


(1) 首先 创建 一 个 Keras 的 Sequential 模型 。 


dis_model = Sequential() 


(2) 添加 一 个 2D 卷 积 层 ， 接 收 形状 为 (6564，64，3) 的 输入 图 像 。 该 层 的 超 参数 如 下 所 示 。 
此 外 ， 添 加 一 个 alpha 值 为 0.2 的 LeakyReLU 作为 激活 函数 。 


口 过 滤器 数量 : 128 
口 卷 积 核 大 小 : (5，5) 
口 填充 方式 : same 


dis_model.add (Conv2D(filters=128, kernel_ size=5, padding='same', 
input_shape=(64, 64, 3))) 
dis_model.add (LeakyReLU (alpha=0.2)) 


(3) 接着 添加 一 个 池 大 小 为 (2，2) 的 2D 最 大 池 化 层 ， 以 对 图 像 表 示 进 行 下 采样 ， 通 过 对 图 
像 的 非 重 秋子 区 域 使 用 最 大 过 滤器 来 实现 。 


dis_model.add (MaxPooling2D(pool_size=(2, 2))) 


第 一 层 输 出 张 量 的 形状 为 (batch_size，32，32，128)。 
(4) 接着 添加 另 一 个 2D 卷 积 层 ， 配 置 如 下 。 


口 过 滤器 数量 : 256 

口 卷 积 核 大 小 : (3，3) 

口 激活 函数 : LeakyReLU，alpha 值 为 0.2 
D2D 最 大 池 化 层 的 池 大 小 : (2，2) 
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dis_ model.add (Conv2D(filters=256, kernel_ size=3)) 
dis_model.add (LeakyReLU (alpha=0.2)) 
dis_model.add (MaxPooling2D(pool_ size=(2, 2))) 


该 层 输出 张 量 的 形状 为 (batch_size，30，30，256) 。 
(5) 然后 添加 第 三 个 2D 卷 积 层 ， 配 置 如 下 。 


口 过 滤器 数量 : 512 

口 卷 积 核 大 小 : (3，3) 

口 激活 函数 : LeakyReLU，alpha 值 为 0.2 
口 2D 最 大 池 化 层 的 池 大 小 : (2，2) 


dis_ model.add (Conv2D(512, (3, 3))) 
dis_model.add (LeakyReLU (alpha=0.2)) 
dis_model.add (MaxPooling2D(pool_ size=(2, 2))) 


该 层 输出 张 量 的 形状 为 (batch_size，13，13，256) 。 


(6) 接着 添加 一 个 扁平 化 层 ， 将 输入 扁平 化 ， 但 不 影响 批 大 小 。 该 层 输出 一 个 二 维 张 量 。 EE 


dis_model.add (Flatten()) 


该 扁平 化 层 输 出 张 量 的 形状 为 (batch_size，18432，) 。 


(7) 然后 添加 一 个 具有 1024 个 神经 元 的 全 连接 层 ， 使 用 alpha 值 为 0.2 的 LeakyReLU 作为 激 
活 函 数 。 


dis_model.add (Dense(1024)) 
dis_model.add (LeakyReLU (alpha=0.2)) 


(8) 最 后 ， 添 加 一 个 神经 元 数量 为 1 的 全 连接 层 用 于 进行 二 分 类 。sigmoid 函数 是 进行 二 分 类 
的 最 佳 选择 ， 它 提供 了 类 别 概率 。 


dis_model.add (Dense(1)) 
dis_model.add(Activation('sigmoid')) 


判别 网 络 生成 形状 为 (patch_size，1) 的 输出 张 量 ， 包 含 类 别 的 概率 。 


将 生成 网 络 的 完整 代码 包装 成 Python 函数 ， 如 下 所 示 。 


def get_discriminator(): 
dis_model = Sequential() 
dis_model.adqd( 
COnY2D( L285" 5) 
padding='same', 
input_shape=(64, 64, 3)) 
) 
dis_model.add (LeakyReLU (alpha=0.2)) 
dis_model.add (MaxPooling2D(pool_size=(2, 2))) 
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dis_model.add (Conv2D(256, (3, 3))) 
dis_model.add (LeakyReLU (alpha=0.2)) 
dis_model.add (MaxPooling2D(pool_size=(2, 2))) 


dis_model.add (Conv2D(512, (3, 3))) 
dis_model.add (LeakyReLU (alpha=0.2)) 
dis_model.add (MaxPooling2D(pool_size=(2, 2))) 


dis_model.add(Flatten()) 
dis_model.add (Dense(1024)) 


dis_model.add (LeakyReLU (alpha=0.2)) 


dis_model.add(Dense(1)) 
dis_model.add(Activation('sigmoid')) 


return dis_ model 


这 样 就 成 功 实 现 了 判别 网 络 和 生成 网 络 。 下 面 在 4.2 节 准 备 的 数据 集 上 训练 模型 。 


4.5 训练 DCGAN 
训练 DCGAN 类 似 于 训练 普通 GAN ， 过 程 分 为 4 步 。 


(1) 加 载 数据 集 。 
(2) 构建 并 编译 两 个 网 络 。 
(3) 训练 判别 网 络 。 
(4) 训练 生成 网 络 。 


下 面 详 述 各 步 又 。 
首先 定义 变量 和 超 参 数 。 


dataset_dir = "/Path/to/dataset/directory/*.*" 
batch_ size = 128 

z_shape = 100 

epochs = 10000 

dis_learning rate = 0.0005 

gen_learning rate = 0.0005 

dis_ momentum = 0.9 

gen momentum = 0.9 

dis_nesterov = True 

gen_ nesterov = True 


确定 了 训练 用 的 不 同 超 参数 后 ， 下 面 介绍 如 何 加 载 训练 数据 集 。 
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4.5.1 加 载 样本 


训练 DCGAN 需要 将 数据 集 加 载 到 内 存 , 并 定义 按 批 次 加 载 到 内 存 的 机 制 。 加 载 数据 集 步 又 
如 下 。 


(1) 首先 加 载 之 前 经 过 剪裁 、 缩 放 , 并 保存 在 cropped 文件 夹 中 的 全 部 图 像 。 正 确 指定 目录 路 
径 ， 以 便 glob .glopb 函数 创建 一 个 包含 所 有 文件 的 列表 。 使 用 scipy.mics 模块 中 的 imread 函数 
读 取 图 像 。 加 载 目 录 中 全 部 图 像 的 代码 如 下 。 


# 加 载 图 像 

all_images = [] 

for index, filename in 

enumerate(glob.glob('/Path/to/cropped/images/directory/*.*')): 
image = imread(filename, flatten=False, mode='RGB') 
all_images.append (image) 


(2) 接着 创建 包含 全 部 图 像 的 ndarray， 最 终 形状 会 是 (total_num_images，64，64，3)。 
然后 将 所 有 图 像 归 一 化 。 


# 转换 为 NumPy ndarray 格式 
又 np.array (all_images) 
又 (GRE DD Ms pS. 


加 载 数据 集 后 ， 下 面 介绍 如 何 构 建 并 编译 网 络 。 


| 


4.5.2 ”构建 并 编译 网 络 
下 面 构建 并 编译 训练 所 需 的 两 个 网 络 。 


(1) 首先 定义 训练 所 需 的 优化 右 ， 如 下 所 示 。 
# 定义 优化 器 
dis_optimizer = SGD(lr=dis_ learning_ rate, momentum=dis_momentum, 
nesterov=dis_nesterov) 
gen_optimizer = SGD(lr=gen learning rate, momentum=gen_ momentum, 
nesterov=gen_nesterov) 


(2) 然后 创建 生成 网 络 模型 的 一 个 实例 ， 编 译 生 成 网 络 模 型 ( 编译 时 会 初始 化 权重 参数 、 优 
化 器 算法 、 损 失 函 数 ， 以 及 其 他 核心 步骤 )。 


gen_model = build_ generator() 
gen_model.compile(loss='binary_crossentropy', 
optimizer=gen_optimizer) 


使 用 binary_crossentropy 作为 生成 网 络 的 损失 函数 、gen_optimizer 作为 其 优 
化 器 。 
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(3) 接着 创建 判别 网 络 模型 的 一 个 实例 并 编译 ， 如 下 所 示 。 


dis_ model = buildq qiscriminator () 
dis_model.compile(loss='binary_crossentropy', 
optimizer=dis_optimizer) 


类 似 地 ,使 用 binary_crossentropy 作为 判别 网 络 的 损失 函数 、dais_optimizer 作 
为 优化 器 。 

(4) 然后 创建 对 抗 模型 ， 即 把 两 个 网 络 包含 在 一 个 模型 中 。 对 抗 模型 的 架构 如 下 所 示 。 

输入 一 生成 网 络 一 判别 网 络 一 输出 

创建 并 编译 对 抗 模型 的 代码 如 下 。 

adversarial model = Sequential () 

adversarial_model.add (gen model) 


dis_ model.trainable = False 
adversarial model.add (dis_model) 


训练 该 网 络 时 不 训练 判别 网 络 ， 所 以 在 将 判别 网 络 添加 到 对 抗 模 型 之 前 将 其 设置 为 “不 可 
训练 ”。 


编译 对 抗 模型 ， 如 下 所 示 。 


adversarial model.compile(loss='binary_crossentropy', 
optimizer=gen_optimizer) 


使 用 binary_crossentropy 作为 对 抗 网 络 的 损失 函数 、gen_optimizer 作为 其 优化 器 。 
在 开始 训练 之 前 添加 TensorBoard， 对 损失 进行 可 视 化 。 如 下 所 示 。 


tensorboard = TensorBoard(1og_dqir="logs/{})".format (time.time()), 

write_ images=True, write grads=True, write graph=True) 
tensorboard.set_model (gen_ model) 
tensorboard.set_model (dis_model) 


下 面 训 练 网 络 多 次 迭代 , 需要 创建 一 个 循环 ， 指 定 运 行 轮 数 。 每 轮 会 在 一 个 大 小 为 128 的 小 
批量 上 训练 网 络 。 下 面 计算 需要 处 理 的 批 次 数量 。 
for epoch in range (epcohs): 
print ("Epoch is", epoch) 
number_of_batches = int (X.shape[0] / batch size) 


print ("Number of batches", number_of_batches) 
for index in range (number_of_batches): 


下 面具 体 介绍 训练 过 程 。 首 先 解释 DCGAN 训练 所 涉及 的 几 个 步骤 。 


口 两 个 网 络 的 权重 最 初 都 是 随机 设 定 的 。 
口 训练 DCGAN 的 标准 流程 是 ， 首 移 在 一 批 次 样本 上 训练 判别 网 络 。 
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口 该 步骤 要 用 到 假 样本 和 真 样本 。 真 样本 已 经 有 了 ， 这 里 需要 生成 假 样本 。 

口 生成 假 样本 需要 在 均匀 概率 分 布 中 构建 形状 为 (100, ) 的 潜在 向 量 ， 然 后 将 其 传递 给 未 训 
练 过 的 生成 网 络 。 生 成 网 络 会 生成 假 样本 ， 用 于 训练 判别 网 络 。 

口 将 真 图 像 和 假 图 像 组 合成 新 的 样本 图 像 集 。 还 需要 创建 一 个 标签 数组 : 标签 1 代表 真 图 
像 ， 标 签 0 代表 假 图 像 。 


4.5.3 ”训练 判别 网 络 
训练 判别 网 络 的 步 又 如 下 。 
(1) 首先 从 正 态 分 布 中 采样 一 批 次 噪声 向 量 ， 如 下 所 示 。 


Z_noise = np.random.normal (0, 1, size=(batch size, z_shape)) 
使 用 NumPy 库 的 np.random 模块 的 normal () 函数 进行 采样 。 
(2) 然后 从 所 有 图 像 的 集合 中 采样 一 批 次 真实 图 像 。 
image_batch = X[index * batch size: (index + 1) * batch_size] 
(3) 接着 使 用 生成 网 络 生 成 一 批 次 假 图 像 。 
generated_images = gen model.predict_on batch(z_noise) 
(4) 然后 创建 真 标签 和 假 标签 。 


y_real 
y_fake 


(5) 接着 在 真 图 像 和 真 标签 上 训练 判别 网 络 。 

dis_loss_real = dis model.train on batch(image batch, y_real) 
(6) 类 似 地 ， 在 假 图 像 和 假 标签 上 训练 判别 网 络 。 

dis_loss_fake = qis_model.train_on_batch (generated_images，yY_fake) 
(7) 然后 计算 平均 损失 ， 并 输出 到 控制 台 。 


d_loss = (dis_loss_real+tdis_loss_fake)/2 
print ("qd_loss:", d_loss) 


前 面 一 直 在 训练 判别 网 络 ， 下 面 训练 生成 网 络 。 


np.ones (batch_size) - np.random.random sample(batch size) * 0.2 
np.random.random_ sample(batch size) * 0.2 


4.5.4 训练 生成 网 络 


需要 通过 训练 对 抗 模型 来 训练 生成 网 络 。 训 练 对 抗 模型 时 ， 需 要 锁定 判别 网 络 ， 只 训练 生成 
网 络 。 前 面 训练 过 了 判别 网 络 ， 因 此 不 再 训练 。 训 练 对抗 模 型 的 步骤 如 下 。 
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(1) 首先 再 创建 一 批 次 噪声 向 量 。 从 正 态 分 布 中 采样 这 些 噪 声 向 量 。 
Z_noise = np.random.normal (0, 1, size=(batch size, 


(2) 然后 在 这 批 次 噪声 向 量 上 训练 对 抗 模 型 ， 如 下 所 示 。 


z_shape)) 


g_loss = adversarial model.train on batch(z_noise, 


[1] * patch_size) 


使 用 一 批 次 噪声 向 量 和 真实 标签 训练 对 抗 模 型 。 其 中 ,真实 标签 是 所 有 值 都 为 1 的 向 量 。 
同时 这 是 在 训练 生成 网 络 欺骗 判别 网 络 。 该 过 程 是 通过 向 判别 网 络 提供 所 有 值 都 为 1 的 
向 量 实 现 的 。 这 一 步 生 成 网 络 将 会 收 到 判别 网 络 的 反馈 ， 并 据 此 优化 自身 。 
(3) 最 后 ， 将 生成 网 络 的 损失 输出 到 控制 侣 ， 以 追踪 损失 。 


print("g_loss:" 


， 9g_loss) 


可 以 使 用 一 种 被 动 方法 评估 训练 过 程 。 每 训练 10 轮 生 成 一 批 假 图 像 , 并 人 工 检查 这 些 图 像 的 
质量 Lo) 


if epoch % 10 == 


Z_noise = np.random.normal (0, 1, size=(batch size, z_shape)) 

gen_imagesl = gen model.predict_ on batch(z_noise) 

for img in gen imagesl1l[:2] 
save_rgb_img (img, "results/one_{}.png".format (epoch)) 


可 以 根据 这 些 图 像 判 定 是 否 继续 训练 。 如 果 生 成 的 高 分 辩 率 图 像 质量 很 好 ， 可 以 停止 训练 ; 
否则 就 继续 训练 ， 直 到 模型 够 好 。 


这 样 就 在 动画 人 物 数据 集 上 成 功 训 练 了 一 个 DCGAN。 下 面 使 用 该 模型 生成 动画 人 物 的 图 像 。 
4.5.5 生成 图 像 


生成 图 像 需 要 从 潜在 空间 采样 噪声 向 量 。 可 用 NumPy 的 uniform() 函数 从 均匀 概率 分 布 中 
生成 向 量 。 生 成 图 像 的 步骤 如 下 。 


(1) 通过 添加 下 面 这 行 代码 ， 创 建 一 个 维度 为 ( 


batch_size，100) 的 噪声 向 量 。 
Z_noise = np.random.normal (0, 1, size=(batch size, z_shape)) 
(2) 然后 , 使 用 生成 网 络 的 predict_on_batc 
二 广 | _ 且 
声 问 量 。 


h 方法 生成 图 像 。 该 方法 接收 上 一 步 创建 的 品 


gen_images = gen model.predict_on batch(z_noise) 


(3) 图 像 已 经 生成 ， 通 过 添加 下 面 这 行 代码 来 保存 它 。 创 建 一 个 名 为 results 的 目录 ， 存 储 生 
成 的 图 像 。 


imsave('results/image_{}.jpg'.format (epoch),gen_images[0]) 


至 此 , 可 以 打开 这 些 生成 的 


图 像 , 检验 所 得 模型 的 质量 了 。 这 是 一 种 估计 模型 性 能 的 被 动 方法 。 
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4.5.6 ”保存 模型 


在 Keras 中 ， 保 存 模型 只 需 一 行 代码 ， 如 下 所 示 。 

# 指定 生成 网 络 模型 的 路 径 
gen_model.savel("dqirectory/for/the/generator/mode1.h5") 
类 似 地 ， 保 存 判别 网 络 模型 的 代码 如 下 。 


# 指定 判别 网 络 模型 的 路 径 
dis_model.save("directory/for/the/discriminator/model.h5") 


需要 通过 训练 对 抗 模型 来 训练 生成 网 络 。 训 练 对 抗 模型 时 , 会 锁定 判别 网 络 ， 只 训练 生成 网 
络 。 前 面 训练 过 判别 网 络 了 ， 因 此 不 再 训练 。 训 练 对 抗 模型 的 步 又 如 下 。 


4.5.7 ”生成 图 像 可 视 化 


100 轮训 练 后 ， 生 成 网 络 会 开始 生成 不 错 的 图 像 。 下 面 看 一 下 这 些 生 成 的 图 像 。 Ee 
100 轮训 练 后， 图 像 如 图 4-6 所 示 。 


图 4-6 ”100 轮训 练 后 生成 的 图 像 
200 轮训 练 后 ， 图 像 如 图 4-7 所 示 。 


图 4-7 200 轮训 练 后 生成 的 图 像 
通常 网 络 训练 10 000 轮 后 可 生成 非常 不 错 的 图 像 。 
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4.5.8 ”损失 可 视 化 
启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 。 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ， 如 图 4-8 所 示 。 


TensorBoard SCALARS GRAPHS INACTVEv~ C 家 @ 


Show data download links Q Filter tags (regular expressions supported) 


lgnore outliers in chart scaling 


discriminator_loss 1 


Tooltip sorting method: default ” 
Nr discriminator_loss 


Smoothing 0.454 | 
i 0.450 
Horizontal Axis 0.446 -| 
STEP WALL 0.442 | 
0 2 4 6 8 10 12 14 
Runs rl 三 回 汪 1546973138.299 vw CSY JSON 


Write a regex to filter runs 


1 
O 1546973138.2998514 generator Joss 


generator_loss 


4 6 8 10 12 14 


川 
日 
| 和 


rmunto download w CSV JSON 


TOGGLE ALL RUNS 


logs 


图 4-8 两 种 损失 的 曲线 图 

这 些 曲线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 ,因为 已 经 没 

有 提升 的 可 能 了 。 如 果 损 失 不 断 提 高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参 数 以 获得 更 好 的 结果 。 
如 果 损 失 在 逐渐 降低 ， 就 继续 训练 模型 。 
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4.5.9 ”图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 有 果 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 4-9 )。 


TensorBoard SCALARS GRAPHS INACTIVE ~ 内 @ 
Search nodes. Regexes supported Main Graph Auxiliary Nodes 
加 Fit to Screen a 
如 ”Download PNG i 7 ss 
a i 
Run (1) 1546973138.2998514 \ ) _ (ea 
y } 
Session runs ED 守 Gord eee 
(0) \ 
Upload Choose Fie 
| 
_ 局 Traceinputs 全 TY 
Color @ Structure 加 
Bi GE: 光 
© XxLAa Cluster 
© Computetime | 
© Memory Ce ) 
< 表 
© TPU Compatibility 天 
colors 。 same substructure Ce : eee 
DD uiquesubstructure 六 
| 
| 
( relu2 
Y Close legend. / | 
Graph (=expandable) > em | i 
Namespace* ? NA 
OpNode? > 和 / 
Unconnected seriesy 2 (rapodingz) Sense ee 
T 
Connected series* 2 | \ 
G Constant 2 Ce ) 
四 Summary ? / 
» Dataflowedge? Leomv2d_1 ee dense 3 Ce 
Control dependency edge ? 
Reference edge ? Ss 人 


4.5.10” 超 参数 调 优 


超 参数 是 模型 的 属性 ， 
用 的 超 参 数 。 


口 学 习 速 率 

口 批 大 小 

口 训练 轮 数 

口 生成 网 络 的 优化 器 


图 4-9 各 图 中 的 张 量 和 不 同 运算 的 流 


在 训练 中 国定 不 变 。 参 数 不 同 ,准确 性 也 可 能 不 同 。 下 面 介绍 一 些 常 
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口 判别 网 络 的 优化 器 
口 层 数 

口 全 连接 层 的 节点 数量 
口 激活 函数 

口 损失 函数 


4.4 方 的 学 习 速率 是 固定 的 : 生成 网 络 模型 和 判别 网 络 模型 都 使 用 0.0005。 批 大 小 是 128。 
调节 这 些 数 值 可 优化 模型 。 如 果 模型 无 法 生成 较 好 的 图 像 ， 可 以 尝试 更 改 这 些 数 值 , 然 后 重新 运 


行 模型 。 


4.6 DCGAN 的 实际 应 用 


DCGAN 可 以 针对 不 同 的 用 例 进 行 定 制 。DCGAN 的 部 分 实际 应 用 如 下 。 


口 生成 动画 人 物 。 目 前 ， 动 画 制 作者 需要 使 用 计算 机 软件 人 工 绘制 人 物 ， 有 时 需要 在 纸 上 
绘制 。 这 种 人 工 处 理 的 过 程 往往 非常 耗 时 。 使 用 DCGAN 可 以 很 快 生成 新 的 动画 人 物 ， 


从 而 加 速 创作 过 程 。 


DCGAN 可 以 增强 已 有 数据 集 ， 增 加 有 监督 模型 训练 所 需 数 据 集 的 大 小 。 


口 增强 数据 集 。 训 练 有 监督 机 器 学 习 模 型 时 ， 为 了 确保 模型 质量 ， 需 要 使 用 很 大 的 数据 集 。 


口 生成 MNIST 字符 。MNIST 数据 集 包 含 60 000 个 手写 数字 的 图 像 。 如 果 要 训练 复杂 的 有 


监督 学 习 模 型 ，MNIST 数据 集 是 不 够 大 的 。DCGAN 训练 完成 后 可 以 生成 新 数字 ， 扩 充 


原始 数据 集 。 
口 生成 人 脸 图 像 。DCGAN 使 用 卷 积 神经 网 络 ， 擅 长 生成 通 真 的 图 像 。 
口 提取 特征 。 训 练 完成 后 ， 可 以 从 判别 网 络 的 中 间 层 中 提取 特征 。 这 些 特 生 


E 对 于 风格 迁移 


和 人 脸 识别 等 任务 都 非常 实用 。 在 风格 迁移 任务 中 ， 需 要 生成 图 像 的 内 部 表示 ， 用 于 计 
算 风 格 和 内 容 的 损失 。 关 于 风格 迁移 的 更 多 信息 ， 请 参考 论文 “A Neural Algorithm of 


Artistic Style” 。 


4.7 小 结 


本 章 介 绍 了 深度 卷 积 生成 对 抗 网 络 。 首 先 简 单 介 绍 了 DCGAN, 然后 详细 介绍 了 DCGAN 架 


构 , 之 后 创建 了 项 目 并 安装 了 所 需 的 依赖 程序 , 接着 介绍 了 如 何 下 载 和 准备 数据 集 , 随后 用 Keras 


实现 了 网 络 , 并 在 数据 集 上 进行 了 训练 。 训 练 完 成 之 后 , 使 用 模型 生成 了 新 的 动画 人 物 。 本 章 还 


讨论 了 DCGAN 的 实际 应 用 。 


下 一 章 将 介绍 SRGAN， 它 用 于 生成 高 分 辨 率 图 像 。 


第 5 章 


使 用 SRGAN 生成 逼真 图 像 


SRGAN ( super-resolution generative adversarial network， 超 分 辩 率 生成 对 抗 网 络 ) 可 以 使 用 
低 像素 图 像 生成 具有 更 多 细节 、 质 量 更 高 的 超 分 辩 率 图 像 。 最 初 ， 人 们 使 用 CNN 来 获得 高 分 辨 
率 图 像 ， 其 模型 训练 快 且 准确 度 高 。 然 而 在 某 些 情况 下 ，CNN 无 法 修复 更 为 精细 的 细节 ， 往 往 
生成 模糊 的 图 像 。 本 章 使 用 Keras 框架 实现 一 个 能 生成 高 分 辩 率 图 像 的 SRGAN。SRGAN 最 初 是 
由 Christian Ledig、Lucas Theis 、Ferenc Huszar 、Jose Caballero 和 Andrew Cunningham 等 人 在 论 
文 “Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network” 中 提出 的 。 


本 章 将 讨论 以 下 主题 。 

口 SRGAN 简介 Eo 
口 创建 项 目 

口 下 载 CelebA 数据 集 

口 SRGAN 的 Keras 实现 

口 训练 SRGAN， 以 及 优化 网 络 

口 SRGAN 的 实际 应 用 


5.1 SRGAN 简介 


和 其 他 GAN 类 似 ，SRGAN 包括 一 个 生成 网 络 和 一 个 判别 网 络 ， 两 个 都 是 深度 神经 网 络 。 
它们 的 功能 如 下 。 


口 生成 网 络 : 接收 维度 为 64x64x3 的 低 分 辩 率 图 像 ， 经 过 卷 积 层 和 上 采样 层 的 一 系列 处 理 ， 
生成 一 个 形状 为 256x256x3 的 超 分 辨 率 图 像 

口 判别 网 络 : 接收 高 分 辩 率 图 像 ， 试 网 判断 给 定 图 像 是 真 ( 属于 真实 数据 样本 ) 还 是 假 ( 由 
生成 网 络 生成 的 ) 


5.1.1 SRGAN 架构 
SRGAN 中 的 两 个 网 络 都 是 深度 卷 积 神经 网 络 ， 包 含 卷 积 层 和 上 采样 层 。 每 个 卷 积 层 后 面 是 
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个 批 归 一 化 运算 和 一 个 激活 层 。 稍 后 详 述 两 个 网 络 的 细节 。 图 5-1 展示 了 SRGAN 的 架构 。 


生成 网 络 
残 差 块 
pe -人 
k9n64s1 k3n64s1 k3n64s1 k3n64s1 k3n256s1 k9n3s1 
mn 
本 
|s 
| 
a E mb> |SR 
跳跃 连接 
判别 网 台 
| 别 网 各 k3n128s2 k3n256s2 k3n512s2 
k3n64s1 k3n64s2 k3n128s1 k3n256s1 k3n512s1 
3 3 天 图 IMR 
6 轩 加 & 图 只 2 
目 芯 入 加 Ey Ey r 
[SR 


图 5-1 生成 网 络 和 判别 网 络 的 架构 ， 图 中 标明 了 每 个 卷 积 层 相 应 的 卷 积 核 大 小 () ， 
特征 映射 的 数量 (n ) 以 及 步 长 (s) 


下 面 详细 介绍 两 个 网 络 的 架构 。 


1. 生成 网 络 的 架构 

前 面 提 过 ， 生 成 网 络 是 深度 卷 积 神经 网 络 ， 由 下 面 这 些 块 组 成 。 
口 前 残 差 块 

口 残 差 块 

口 后 残 差 块 

口 上 采样 块 

口 最 终 的 卷 积 层 


下 面 逐 一 探讨 。 


口 前 残 差 块 : 包含 一 个 2D 卷 积 层 ， 使 用 ReLU 作为 激活 函数 。 配 置 如 下 ( 见 表 5-1 )。 


表 5-1 

层 名 称 超 参 数 输入 形状 输出 形状 
Filters=64, kernel size=3, 

2D 卷 积 层 strides=1, padding='same', (64, 64, 3) (64, 64, 64) 


activation='relu' 
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口 残 差 块 : 包含 两 个 2D 卷 积 层 。 每 个 卷 积 层 后 面 都 有 一 个 批 归 一 化 层 ， 其 Momentum 值 为 
0.8。 配 置 如 下 ( 见 表 5-2 )。 


表 5-2 

层 名 称 超 参 数 输入 形状 输出 形状 
Filters=64, 
kernel_size=3, 

2D 卷 积 层 strides=1, (64, 64, 64) (64, 64, 64) 
padding='same', 
activation='relu' 

批 归 一 化 层 omentum=0.8 (64, 64, 64) (64, 64, 64) 
Filters=64, 

, ernel_size=3, 

2D 卷 积 层 Ds (64, 64, 64) (64, 64, 64) 
strides=1, 
padding=' same' 

批 归 一 化 层 omentum=0.8 (64, 64, 64) (64, 64, 64) 

加 法 层 无 (64，64，64) (64, 64, 64) 


加 法 层 计算 该 块 的 输入 张 量 和 最 后 的 批 归 一 化 层 的 输出 之 和 。 生成 网 络 包 含 16 个 配置 如 
上 的 残 差 块 。 


口 后 残 差 块 : 后 残 差 块 也 包含 一 个 2D 卷 积 层 ， 使 用 ReLU 作为 激活 函数 。 卷 积 层 后 面 是 一 
个 批 归 一 化 层 ， 其 Momentum 值 为 0.8。 后 残 差 块 的 配置 如 下 ( 见 表 5-3 )。 


表 5-3 
层 名 称 超 人 参 数 输入 形状 输出 形状 
Filters=64, kernel size=3, 
2D 卷 积 层 和 县 (64，64，64) (64, 64, 64) 
strides=1, padding='same' 
批 归 一 化 层 Momentum=0.8 (64, 64, 64) (64, 64, 64) 


口 上 采样 块 : 上 采样 块 包含 一 个 上 采样 层 和 一 个 2D 卷 积 层 ,使 用 ReLU 作为 激活 函数 。 生 
成 网 络 有 两 个 上 采样 块 。 第 一 个 上 采样 块 的 配置 如 下 《〈 见 表 5-4 )。 


表 5-4 
层 名 称 超 人 参 数 输入 形状 输出 形状 


2D 上 采样 层 Size=(2, 2) (64, 64, 64) (128, 128, 64) 


Filters=s256, 


Ea kernel_ size=3, strides=1, 
2D 卷 积 层 . (128, 128, 256 (128, 128, 256) 
padding='same', 


activation='relu' 
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第 二 个 上 采样 块 的 配置 如 下 ( 见 表 5-5 )。 
表 5-5 

层 名 称 超 参 数 输入 形状 输出 形状 

2D 上 采样 层 Size=(2, 2) (128, 128, 256) 256, 256, 256) 
Filters=256, 

2D 卷 积 层 op Eh 256, 256, 256) 256, 256, 256) 
padding='same', 
activation='relu' 


口 最 后 的 卷 积 层 : 最 后 一 层 是 一 个 2D 卷 积 层 , 使 用 tanh 作为 激活 函数 。 该 层 生 成 一 个 形状 
为 (256，256，3) 的 图 像 。 最 后 一 层 的 配置 如 下 ( 见 表 5-6 )。 


表 5-6 
层 名 称 超 参 数 输入 形状 输出 形状 
Filters=3, kernel size=9, 
2D 卷 积 层 strides=1, padding='same', (256, 256, 256) (256, 256, 3) 


activation='tanh' 


0 这 些 超 参 数 是 针对 Keras 设计 的 。 如 果 使 用 其 他 框架 ， 请 做 相应 调整 。 


2. 判别 网 络 的 架构 


判别 网 络 也 是 深度 卷 积 网 络 。 它 包含 8 个 卷 积 块 和 两 个 全 连接 层 。 每 个 卷 积 块 后 面 都 有 一 个 
批 归 一 化 层 。 网 络 末端 是 两 个 全 连接 层 , 相当 于 一 个 分 类 块 。 最 后 一 层 估 测 给 定 图 像 属 于 真 数 据 


集 或 假 数据 集 的 概率 。 判 别 网 络 的 


具体 配置 如 表 5-7 所 示 。 


三 


表 5-7 
层 名 称 超 参数 输入 形状 输出 形状 
输入 层 无 (256, 256, 3) (256, 256, 3) 
. 本 filters=64, kernel_size=3, strides=1, 
2D 卷 积 层 | I (256, 256, 3) (256, 256, 64) 
padding='same', activation='leakyrelu' 
filters=64, kernel_size=3, strides=2, 
2D 卷 积 层 > (256, 256, 64) (128, 128, 64) 
padding='same', activation='leakyrelu' 
批 归 一 化 层 momentum=0.8 (128, 128, 64) (128, 128, 64) 
、 2 filters=128, kernel size=3, strides=1, 
2D 卷 积 层 . i (128, 128, 64) (128, 128, 128) 
padding='same', activation='leakyrelu' 
批 归 一 化 层 momentum=0.8 (128; 128 128) C128 128;, L128) 
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( 续 ) 
层 名 称 超 参 数 输入 形状 输出 形状 
filters=128, kernel size=3, strides=2, 
2D 卷 积 层 (128, 128, 128) (64, 64, 128) 
padding='same', activation='leakyrelu' 
批 归 一 化 层 ”| momentum=0.8 (64, 64, 128) (64, 64, 128) 


、 filters=256, kernel size=3, strides=1, 
2D 卷 积 层 . A (64, 64, 128) (64, 64, 256) 
padding='same', activation='leakyrelu' 


批 归 一 化 层 momentum=0.8 (64, 64, 256) (64, 64, 256) 


filters=256, kernel size=3, strides=2, 
2D 卷 积 层 ， (64, 64, 256) (32, 32, 256) 
padding='same', activation='leakyrelu' 


介绍 过 了 两 个 网 络 ， 下 面 介绍 训练 SRGAN 所 需 的 目标 函数 。 


5.1.2 ”训练 目标 函数 


为 了 训练 SRGAN,， 需要 将 目标 函数 (也 称 “损失 函 数 ”) 最 小 化 。SRGAN 的 目标 函数 称 为 
感知 损失 ( perceptual loss ) 函数 ， 是 两 个 损失 函数 的 加 权 和 。 这 两 个 损失 函数 如 下 所 示 。 


口 内 容 损 失 
口 对 抗 损失 


下 面 详细 介绍 内 容 损失 和 对 抗 损失 。 
1. 内 容 损失 
内 容 损 失 有 两 类 ， 分别 是 : 


口 像素 级 MSE 损失 
口 VGG 损失 


下 面具 体 讨论 这 些 损失 。 
@ 像素 级 MSE 损失 


内 容 损失 是 真实 图 像 的 每 个 像素 和 生成 图 像 的 每 个 像素 之 间 的 均 方 误差 。 像 素 级 MSE 损失 
用 于 计算 生成 图 像 和 真实 图 像 之 间 的 差异 大 小 。 方 法 如 下 。 


Auss = 人 Go (1™ )x,y) 
其 中 ，G， (7) 表示 生成 网 络 生 成 的 高 分 辨 率 图 像 ，Iin 表示 从 真实 数据 集中 采样 的 高 分 辩 率 


图 像 。 
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e@ VGG 损失 


VGG 损失 也 是 内 容 损失 函数 ， 对 生成 图 像 和 真实 图 像 进行 计算 。VGG19 是 流行 的 深度 神经 
网 络 ， 主 要 用 于 图 像 分 类 。VGG19 是 由 Simonyan 和 Zisserman 在 论文 “Very Deep Convolutional 
Networks for Large-Scale Image Recognition” 中 提出 的 。 经 过 预 训练 的 VGG19 网 络 的 中 间 层 可 以 
用 作 特 征 提取 器 ， 从 生成 图 像 和 真实 图 像 中 提取 特征 映射 。VGG 损失 基于 这 些 提取 的 特征 映射 ， 
计算 生成 图 像 和 真实 图 像 的 特征 映射 之 间 的 欧 氏 距离 。 计 算 公 式 如 下 。 


Ta 
lea 二 矿 万 >》 >(@，， (7™ )x,y 下， (Ca (7 天 x, »)” 
i,j i,j X=l 


Lh 
i 


其 中 ，@, ,表示 VGG19 网 络 生 成 的 特征 映射 ，@, (17“) 表示 从 真实 图 像 中 提取 的 特征 映射 ， 
@, (Go_(7”)) 表示 从 生成 的 高 分 辩 率 图 像 中 提取 的 特征 映射 。 该 公式 计算 的 是 生成 图 像 和 真实 
图 像 的 特征 映射 之 间 的 欧 氏 距离 。 

这 两 种 内 容 损 失 都 可 以 用 于 训练 SRGAN。 本 章 使 用 VGG 损失 来 实现 。 

2. 对 抗 损失 


对 抗 损失 是 根据 判别 网 络 返回 的 概率 计算 的 。 在 对 抗 模 型 中 , 判别 网 络 接收 生成 网 络 生成 的 
图 像 。 计 算 对 抗 损失 的 公式 如 下 。 


N 


1 = 六 -log Do (Go, (1™ )) 


n=1 


其 中 ，G (2 表示 生成 的 图 像 ，D，(G， (1) 表示 生成 的 图 像 为 真 的 概率 。 


感知 损失 函数 是 内 容 损失 和 对 抗 损 失 的 加 权 和 ， 公 式 如 下 。 


15® =1.0*15 + 0.001* 758 


其 中 ，1™ 表示 感知 损失 总 和 。 i 是 内 容 损 失 ， 可 以 是 像素 级 MSE 损失 或 VGG 损失 。 


通过 最 小 化 感知 损失 值 ， 生成 网 络 试图 骗 过 判别 网 络 。 随 着 感知 损失 值 降低 ， 生 成 网 络 开始 
生成 更 为 真实 的 图 像 。 


下 面 开始 构建 项 目 。 


5.2 创建 项 目 


前 面 已 经 克隆 或 下 载 了 本 书 所 有 章节 的 完整 代码 。 其 中 目录 Chapter05 包含 本 章 的 完整 代码 。 
执行 如 下 命令 以 创建 项 目 。 
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(1) 首先 访问 父 目 录 ， 如 下 所 示 。 
cd Generative-Adversarial-Networks-Projects 
(2) 从 当前 目录 切换 到 Chapter05。 
cd Chapter05 
(3) 然后 为 本 项 目 创建 一 个 Python 虚拟 环境 。 
virtualenv venv 
Virtualenv venv -p python3 # 创建 一 个 使 用 Python 3 解释 器 的 虚拟 环境 
Virtualenv venv -p python2 # 创建 一 个 使 用 Python 2 解释 器 的 虚拟 环境 
本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 
(4) 接着 启用 新 创建 的 虚拟 环境 。 
source venv/bin/activate 
启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 
(5) 然后 执行 以 下 命令 ， 安 装 requirements.txt 文件 中 列 出 的 所 需 的 库 。 


pip install -r requirements.txt 
README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创建 独立 的 虚拟 环境 来 解决 。 
这 样 就 创建 好 了 项 目 , 并 安装 了 所 需 的 依赖 程序 。 下 面 处 理 数据 集 ， 并 介绍 如 何 下 载 数据 集 
和 变换 格式 。 


5.3 下 载 CelebA 数据 集 

本 章 使 用 大 型 的 CelebA (CelebFaces Attributes ) 数据 集 。 该 数据 集 包 含 202 599 张 名 人 面部 
图 像 。 

人 该 数据 集 仅 用 于 非 商 业 性 研究 ， 不 得 商用 。 如 想 商 用 ， 需 著 图 片 所 有 者 授权 。 


本 章 使 用 CelebA 数据 集训 练 SRGAN。 下 载 数据 集 及 提取 图 像 的 步骤 如 下 。 


(1) 下 载 该 数据 集 。 
(2) 执行 以 下 命令 ， 从 下 载 的 img align_celeba.zip 文件 中 提取 图 像 。 


unzip img align celeba.zip 


下 载 数据 集 并 提取 图 像 后 ， 下 面 使 用 Keras 来 实现 SRGAN。 
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5.4 ”SRGAN 的 Keras 实现 


前 面 提 过 , SRGAN 由 3 个 神经 网 络 构 成 , 分 别 是 1 个 生成 网 络 、1 个 判别 网 络 , 以 及 1 个 在 


Imagenet 数据 集 上 预 训练 过 的 VGG19 网 络 。 下 面 编写 这 些 网 络 的 实现 代码 。 首 先 实现 生成 网 络 。 


在 开始 编写 代码 之 前 ， 首 先 创建 一 个 Python 文件 main.py， 并 导入 核心 模块 ， 如 下 所 示 。 
import glob 


impor 


import numpy as np 

import tensorflow as tf 

from keras import Input 

from keras.applications import VGG19 

from keras.callbacks import TensorBoard 

from keras.layers import BatchNormalization, Activation, LeakyReLU, Add, \ 
Dense, PReLU, Flatten 

from keras.layers.convolutional import Conv2D, UpSampling2D 

from keras.models import Model 

from keras.optimizers import Adam 

from keras_preprocessing.image import img_ to_array, load_img 

from scipy.misc import imsave 


5.4.1 生成 网 络 


前 面 介绍 过 生成 网 络 的 架构 。 下 面 用 Keras 框架 编写 生成 网 络 的 各 层 ， 然 后 使 用 Keras 框架 


的 函数 式 API 创建 一 个 Keras 模型 。 


在 Keras 中 实现 生成 网 络 的 步 又 如 下 。 
(1) 首先 定义 生成 网 络 所 需 的 超 参数 。 


residual_blocks = 16 
momentum = 0.8 
input_shape = (64, 64, 3) 


(2) 然后 创建 一 个 输入 层 ， 为 网 络 提 供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_shape) 


0 输入 层 接收 形状 为 (64，64，3) 的 输入 图 像 ， 然 后 传递 给 网 络 的 下 一 层 。 


(3) 接着 添加 前 残 差 块 ( 2D 卷 积 层 )， 配 置 如 下 。 


口 过 滤器 数量 : 64 
口 卷 积 核 大 小 : 9 
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口 步 长 : 1 
口 填充 方式 : same 
口 激活 函数 : ReLU 


genl = Conv2D(filters=64, kernel size=9, strides=1, padding='same', 
activation='relu') (input_layer) 


(4) 然后 为 残 差 块 编写 函数 ， 如 下 所 示 。 


def residual_ block (x): 
残 差 块 
filters = [64, 64] 
kernel_size = 3 
strides = 1 
padding = "same" 
momentum = 0.8 
Aactivation. = “rely 


res = Conv2D(filters=filters[0], kernel size=kernel_size, 
strides=strides, padding=padding) (x) 

res = Activation(activation=activation) (res) 

res = BatchNormalization (momentum=momentum) (res) 


res = Conv2D(filters=filters[1], kernel_ size=kernel_size, 
strides=strides, padding=padding) (res) 
res = BatchNormalization (momentum=momentum) (res) 


# 添加 res 入 
res = Add() ([res, x]) 
return res 


(5) 接着 使 用 上 一 步 定 义 的 resigqual_block 陈 数 ， 添 加 16 个 残 差 块 。 


res = residual_block (gen]1) 
for i in range(residual blocks - 1): 
res = residual_ block(res) 


前 残 差 块 的 输出 会 传递 给 第 一 个 残 差 块 。 第 一 个 残 差 块 的 输出 传递 给 第 二 个 残 差 块 ， 以 
此 类 推 ， 直 到 第 16 个 残 差 块 。 


(6) 然后 添加 后 残 差 块 (一 个 2D 卷 积 层 ， 然 后 是 一 个 批 归 一 化 层 )， 配 置 如 下 。 


口 过 滤器 数量 : 64 

卷 积 核 大 小 : 3 

步 长 : 1 

填充 方式 : same 

是 否 使 用 批 归 一 化 : 是 (momentum=0.8) 


DODODO 
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gen2 
gen2 


Conv2D (filters=64, kernel_ size=3, strides=1, padding='same') (res) 
BatchNormalization (momentum=momentum) (gen2) 


(7) 接着 添加 一 个 Add 层 ， 取 前 残 差 块 的 输出 genl 和 后 残 差 块 的 输出 gen2 之 和 。 这 一 层 输 
出 一 个 形状 类 似 的 张 量 。 


gen3 = Add() ([gen2, gen1]) 
(8) 然后 添加 一 个 上 采样 块 ， 配 置 如 下 。 


口 上 采样 大 小 : 2 

口 过 滤器 数量 : 256 
口 卷 积 核 大 小 : 3 

口 步 长 : 1 

口 填充 方式 : same 
口 激活 函数 : PReLU 


gen4 = UpSampling2D(size=2) (gen3) 
gen4 = Conv2D(filters=256, kernel_ size=3, strides=1, padding='same') (gen4) 
gen4 = Activation('relu') (gen4) 


(9) 再 添加 一 个 上 采样 块 ， 配 置 如 下 。 


口 上 采样 大 小 : 2 

口 过 滤器 数量 : 256 
口 卷 积 核 大 小 : 3 

口 步 长 : 1 

口 填充 方式 : same 
口 激活 函数 : PReLU 


gen5 = UpSampling2D(size=2) (gen4) 
gen5 = Conv2D(filters=256, kernel_ size=3, strides=1, padding='same') (gen5) 
gen5 = Activation('relu') (gen5) 


(10) 最 后 ， 添 加 和 输出 卷 积 层 ， 配 置 如 下 。 


口 过 滤器 数量 : 3 ( 和 通道 数量 相等 ) 
口 卷 积 核 大 小 : 9 

口 步 长 : 1 

口 填充 方式 : same 

口 激活 函数 : tanh 


gen6 = Conv2D(filters=3, kernel_ size=9, strides=1, padding='same') (gen5) 
output = Activation('tanh') (gen6) 
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定义 好 了 生成 网 络 里 的 各 层 ， 就 可 以 创建 Keras 模型 了 。 前 面 使 用 Keras 的 函数 式 API 
定义 了 一 个 Keras 的 顺序 图 ， 下 面 为 网 络 指定 输入 和 输出 ， 创 建 一 个 Keras 模型 。 


(11) 创建 一 个 Keras 模型 ， 指 定 模型 的 输入 和 和 输出， 如 下 所 示 。 


model = Model (inputs=[input_layer], outputs=[output], name='generator') 


这 样 就 创建 好 了 生成 网 络 的 Keras 模型 。 将 生成 网 络 的 完整 代码 包装 成 Python 函数 ， 如 下 
所 示 。 


def build_ generator () : 
使 用 下 面 定义 的 超 参 数值 创建 一 个 生成 网 络 
返回 : 生成 网 络 模型 
residual_blocks = 16 
momentum = 0.8 
input_shape = (64, 64, 3) 


# 生成 网 络 的 输入 层 
input_layer = Input (shape=input_shape) 


# 添加 前 残 差 块 
genl = Conv2D(filters=64, kernel_ size=9, strides=1, padding='same', 
activation='relu') (input_layer) 


# 添加 16 个 残 差 块 


res = residual_block (gen1) 

for i in range(residual blocks - 1): 

res = residual_block(res) 

# 添加 后 残 差 块 

gen2 = Conv2D(filters=64, kernel_ size=3, strides=1, padding='same') (res) 
gen2 = BatchNormalization (momentum=momentum) (gen2) 


# 取 前 残 差 块 (gen1) 的 输出 和 后 残 差 块 (gen2) 的 输出 之 和 
gen3 = Add() ([gen2, genl1]) 


# 添加 上 采样 块 

gen4 = UpSampling2D(size=2) (gen3) 

gen4 = Conv2D(filters=256, kernel_ size=3, strides=1, padding='same') (gen4) 
gen4 = Activation('relu') (gen4) 


# 再 添加 一 个 上 采样 块 

gen5 = UpSampling2D(size=2) (gen4) 

gen5 = Conv2D(filters=256, kernel_ size=3, strides=1, padding='same') (gen5) 
gen5 = Activation('relu') (gen5) 


# 输出 卷 积 层 
gen6 = Conv2D(filters=3, kernel_ size=9, strides=1, padding='same') (gen5) 
output = Activation('tanh') (gen6) 
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# Keras 模型 

model = Model (inputs=[input_layer], outputs=[output], 
name='generator') 

return model 


生成 网 络 的 Keras 模型 创建 后 ， 下 面 创建 判别 网 络 的 Keras 模型 。 


5.4.2 ”判别 网 络 


前 面 介 绍 过 判别 网 络 的 架构 。 下 面 使 用 Keras 框架 编写 判别 网 络 各 层 ， 然 后 使 用 Keras 框架 
的 函数 式 API 创建 一 个 Keras 模型 。 


在 Keras 中 实现 判别 网 络 的 步骤 如 下 。 
(1) 首先 定义 判别 网 络 所 需 的 超 参数 。 


leakyrelu_alpha = 0.2 
momentum = 0.8 
input_shape = (256, 256, 3) 


(2) 然后 添加 一 个 输入 层 ， 为 网 络 提 供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_shape) 


(3) 接着 添加 一 个 卷 积 块 ， 配 置 如 下 。 


口 过 滤器 数量 : 64 

口 卷 积 核 大 小 : 3 

口 步 长 : 1 

口 填充 方式 : same 

口 激活 函数 : LeakyReLU，alpha 值 为 0.2 


disl = Conv2D(filters=64, kernel_ size=3, strides=1, padding='same') (input_layer) 
disl = LeakyReLU(alpha=leakyrelu_alpha) (dis1) 


(4) 然后 再 添加 7 个 卷 积 块 ， 配 置 如 下 。 


口 过 滤器 数量 : 64，128，128，256，256，512，512 
口 卷 积 核 大 小 : 3，3，3，3，3，3，3 

口 步 长 : 2, 1, 2, 1, 2, 1, 2 

口 填充 方式 : same ( 每 个 卷 积 层 都 是 ) 
口 激活 函数 : LeakyReLU， 其 alpha 值 为 0.2 ( 每 个 卷 积 层 都 是 ) 


# 添加 第 2 个 卷 积 块 


dis2 = Conv2D(filters=64, kernel_ size=3, strides=2, padding='same') (dis1) 
dis2 = LeakyReLU(alpha=leakyrelu_alpha) (dis2) 
dis2 = BatchNormalization (momentum=momentum) (dis2) 
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# 添加 第 3 个 卷 积 块 
dis3 = Conv2D(filters=128, kernel_ size=3, strides=1, 
dis3 = LeakyReLU(alpha=leakyrelu alpha) (dis3) 

dis3 = BatchNormalization (momentum=momentum) (dis3) 


# 添加 第 4 个 卷 积 块 
dis4 = Conv2D(filters=128, kernel_ size=3, strides=2, 
dis4 = LeakyReLU(alpha=leakyrelu_alpha) (dis4) 
dis4 = BatchNormalization (momentum=0.8) (dis4) 


# 添加 第 5 个 卷 积 块 


padding='same') (dis2) 


padding='same') (dis3) 


dis5 = Conv2D(256, kernel_size=3, strides=1, padding='same') (dis4) 


dis5 = LeakyReLU(alpha=leakyrelu_alpha) (dis5) 
dis5 = BatchNormalization (momentum=momentum) (dis5) 


# 添加 第 6 个 卷 积 块 

dis6 = Conv2D(filters=256, kernel_ size=3, strides=2, 
dis6 = LeakyReLU(alpha=leakyrelu_alpha) (dis6) 

dis6 = BatchNormalization (momentum=momentum) (dis6) 


# 添加 第 7 个 卷 积 块 

dis7 = Conv2D(filters=512, kernel_ size=3, strides=1, 
dis7 = LeakyReLU(alpha=leakyrelu_ alpha) (dis7) 

dis7 = BatchNormalization (momentum=momentum) (dis7) 


# 添加 第 8 个 卷 积 块 

dis8 = Conv2D(filters=512, kernel_ size=3, strides=2, 
dis8 = LeakyReLU(alpha=leakyrelu_ alpha) (dis8) 

dis8 BatchNormalization (momentum=momentum) (dis8) 


(5) 接着 添加 一 个 具有 1024 个 节点 的 全 连接 层 ， 配 置 如 下 。 


口 节点 : 1024 
口 激活 函数 : LeakyReLU，alph 值 为 0.2 


dis9 = Dense(units=1024) (dis8) 
dis9 = LeakyReLU(alpha=0.2) (dis9) 


(6) 然后 添加 一 个 返回 概率 的 全 连接 层 ， 如 下 所 示 。 


output = Dense(units=1, activation='sigmoid') (dis9) 


(7) 最 后 ,创建 一 个 Keras 模型 ， 指 明 网 络 的 输入 和 输出 。 


padding='same') (dis5) 


padding='same') (dis6) 


padding='same') (dis7) 


model = Model (inputs=[input_layer], outputs=[output], 


name='discriminator') 


将 判别 网 络 的 完整 代码 包装 成 函数 ， 如 下 所 示 。 


def puildq discriminator(): 


使 用 下 面 定 义 的 超 参 数值 创建 一 个 判别 网 络 
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返回 : 判别 网 络 模型 
leakyrelu_alpha = 0.2 
momentum = 0.8 

input_shape = (256, 256, 3) 


input_layer = Input (shape=input_shape) 


# 添加 第 1 个 卷 积 块 
disl = Conv2D(filters=64, kernel_ size=3, strides=1, padding='same') (input_layer) 
disl = LeakyReLU(alpha=leakyrelu_alpha) (Qis1) 


# 添加 第 2 个 卷 积 块 

dis2 = Conv2D(filters=64, kernel size=3, strides=2, padding='same') (dis]1) 
dis2 = LeakyReLU(alpha=leakyrelu_alpha) (dis2) 

dis2 = BatchNormalization (momentum=momentum) (dis2) 


# 添加 第 3 个 卷 积 块 

dis3 = Conv2D(filters=128, kernel_ size=3, strides=1, padding='same') (dis2) 
dis3 = LeakyReLU(alpha=leakyrelu_alpha) (dis3) 

dis3 = BatchNormalization (momentum=momentum) (dis3) 


# 添加 第 4 个 卷 积 块 

dis4 = Conv2D(filters=128, kernel_ size=3, strides=2, padding='same') (dis3) 
dis4 = LeakyReLU(alpha=leakyrelu_alpha) (dis4) 

dis4 = BatchNormalization (momentum=0.8) (dis4) 


# 添加 第 5 个 卷 积 块 

dis5 = Conv2D(256, kernel_ size=3, strides=1, padding='same') (dis4) 
dis5 = LeakyReLU(alpha=leakyrelu_alpha) (dis5) 

dis5 = BatchNormalization (momentum=momentum) (dis5) 


# 添加 第 6 个 卷 积 块 

dis6 = Conv2D(filters=256, kernel_ size=3, strides=2, padding='same') (dis5) 
dis6 = LeakyReLU(alpha=leakyrelu_alpha) (dis6) 

dis6 = BatchNormalization (momentum=momentum) (dis6) 


# 添加 第 7 个 卷 积 块 

dis7 = Conv2D(filters=512, kernel_ size=3, strides=1, padding='same') (dis6) 
dis7 = LeakyReLU(alpha=leakyrelu_alpha) (dis7) 

dis7 = BatchNormalization (momentum=momentum) (dis7) 


# 添加 第 8 个 卷 积 块 

dis8 = Conv2D(filters=512, kernel_ size=3, strides=2, padding='same') (dis7) 
dis8 = LeakyReLU(alpha=leakyrelu_alpha) (dis8) 

dis8 = BatchNormalization (momentum=momentum) (dis8) 


# 添加 一 个 全 连接 层 
dis9 = Dense(units=1024) (dis8) 
dis9 = LeakyReLU(alpha=0.2) (dis9) 


# 最 后 一 个 全 连接 层 ， 用 于 进行 分 类 


output = Dense(units=1, activation='sigmoid') (dis9) 
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model = Model (inputs=[input_layer], outputs=[output], name='discriminator') 
return model 


这 样 就 创建 好 了 判别 网 络 的 Keras 模型 。 下 面 构建 5.1 节 讲 过 的 VGG19 网 络 。 


5.4.3 VGG19 网 络 


本 章 使 用 预 训练 的 VGG19 网 络 从 生成 的 图 像 和 真实 图 像 中 提取 特征 映射 。 下 面 使 用 Keras 
的 预 训练 权重 来 构建 并 编译 VGG19 网 络 。 
(1) 首先 确定 输入 的 形状 。 
input_shape = (256, 256, 3) 
(2) 然后 加 载 预 训练 的 VGG19， 并 指明 模型 的 输出 。 


vgg = VGG19 (weights="imagenet") 
vgg.outputs = [vgg.layers[9] .output] 


(3) 接着 创建 一 个 符号 式 input_tensor， 用 作 VGG19 网 络 的 符号 式 输 入 ， 如 下 所 示 。 
input_layer = Input (shape=input_shape) 

(4) 然后 使 用 VGG19 提取 特征 。 
features = vgg (input_layer) 


(5) 最 后 ,创建 一 个 Keras 模型 ， 并 指明 网 络 的 输入 和 输出 。 


model = Model (inputs=[input_layer], outputs=[features]) 


将 VGG19 模型 的 完整 代码 包装 成 函数 ， 如 下 所 示 。 


def build vgg(): 


构建 VGG 网 络 来 提取 图 像 特征 
input_shape = (256, 256, 3) 


# 加 载 在 Imagenet 数据 集 上 预 训练 过 的 VGG19 模型 
Vgg = VGG19 (weights="imagenet") 
vgg.outputs = [vgg.layers{[9] .output] 


input_layer = Input (shape=input_shape) 


# 提取 特征 


features = vgg (input_layer) 


# 创建 Keras 模型 
model = Model (inputs=[input_layer], outputs=[features]) 
return model 
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5.4.4 “对抗 网 络 
对 抗 网 络 是 由 生成 网 络 、 判 别 网 络 和 VGG19 结合 而 成 的 。 下 面 创建 一 个 对 抗 网 络 。 
创建 对 抗 网 络 的 步 又 如 下 。 
(1) 首先 为 网 络 创建 一 个 输入 层 。 


input_low_resolution = Input (shape=(64, 64, 3)) 


对 抗 网 络 接收 形状 为 (64，64，3) 的 图 像 ， 因 此 需要 创建 输入 层 。 
(2) 然后 使 用 生成 网 络 生成 假 的 高 分 辩 率 图 像 ， 如 下 所 示 。 


fake_hr_images = generator (input_low_resolution) 


(3) 接着 使 用 VGG19 网 络 从 假 图 像 中 提取 特征 ， 如 下 所 示 。 


fake_features = vggl(fake hr_ images) 


(4) 然后 将 对 抗 网 络 中 的 判别 网 络 设置 为 “不 可 训练 ”。 


discriminator.trainable = False 
训练 生成 网 络 时 不 训练 判别 网 络 ， 因 此 将 判别 网 络 设置 为 “不 可 训练 ”。 
(5) 接着 将 假 图 像 传 递 给 判别 网 络 。 


output = discriminator (fake_ hr_images) 


(6) 最 后 ， 创 建 一 个 Keras 模型 ， 即 对 抗 网 络 。 


model = Model (inputs=[input_low_resolution], outputs=[output, fake_ features]) 


(7) 将 对 抗 模型 的 完整 代码 包装 成 Python 函数 。 


def build adversarial_ model (generator, discriminator, vgg): 


input_low_resolution = Input (shape=(64, 64, 3)) 


fake_hr_images = generator (input_low_ resolution) 
fake_features = vgg(fake hr_ images) 


discriminator.trainable = False 
output = discriminator (fake_ hr_images) 


model = Model (inputs=[input_low_resolution], 
outputs=[output, fake_ features]) 


for layer in model.layers: 
print (layer.name, layer.trainable) 
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print (modae1l .summary () ) 
return model 


这 样 就 在 Keras 中 实现 了 所 需 的 网 络 。 下 面 在 之 前 下 载 的 数据 集 上 训练 该 网 络 。 


5.5 训练 SRGAN 
SRGAN 的 训练 分 为 两 步 。 第 一 步 ， 训 练 判别 网 络 ; 第 二 步 ， 训 练 对 抗 网 络 ， 即 训练 生成 网 
络 。 下 面 开 始 训练 。 
训练 SRGAN 的 步 又 如 下 。 
(1) 首先 定义 训练 所 需 的 超 参 数 。 
# 定义 超 参 数 
data_dir = "Paht/to/the/dataset/img_align celeba/*.*" 


epochs = 20000 
batch size = 1 


# 会 分 状 率 图 像 和 高 分 辩 率 图 像 的 形状 
low_resolution shape = (64, 64, 3) 
high_ resolution_ shape = (256, 256, 3) 


(2) 然后 定义 训练 用 的 优化 器 。 所 有 网 络 都 使 用 Adam 优化 器 ,设置 学 习 速 率 为 0.0002、 
beta_1 为 0.5。 
# 所 有 网 络 共 用 的 优化 器 


common_optimizer = Adam(0.0002, 0.5) 


5.5.1 构建 并 编译 网 络 
构建 及 编译 网 络 的 步骤 如 下 。 
(1) 构建 并 编译 VGG19 网 络 。 


vgg = buildq_vgg() 


vgg.trainable = False 
vgg.compile(loss='mse', optimizer=common optimizer, metrics=['accuracy']) 


设置 损失 为 mse、 度 量 为 accuracy 、 优 化 需 为 common_optimizer， 编 译 VGG19。 编 
译 网 络 之 前 ， 将 其 设置 为 “不 可 训练 ” ， 因 为 这 里 不 训练 VGG19 网 络 。 

(2) 然后 构建 并 编译 判别 网 络 ， 如 下 所 示 。 
discriminator = build discriminator() 


discriminator.compile(loss='mse', optimizer=common_ optimizer, 
metrics=['accuracy']) 


设置 损失 为 mse、 度 量 为 accuracy 、 优 化 器 为 common_cptimizer， 编 译 判别 网 络 。 
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(3) 接着 构建 生成 网 络 。 


generator = build generator () 


(4) 然后 创建 对 抗 模型 。 首 先 创建 两 个 输入 层 。 


input_high _ resolution = Input (shape=high resolution shape) 
input_low_ resolution = Input (shape=low_resolution_ shape) 


(5) 接着 使 用 生成 网 络 从 低 分 辨 率 图 像 中 符号 式 地 生成 高 分 辩 率 图 像 。 


generated high resolution images = generator (input_low_ resolution) 


使 用 VGG19 从 生成 的 图 像 中 提取 特征 。 


features = vgg (generated high resolution images) 


将 判别 网 络 设置 为 “不 可 训练 "， 因 为 训练 对 抗 模型 时 不 训练 判别 模型 。 


discriminator.trainable = False 


(6) 然后 使 用 判别 网 络 获 取 所 生成 的 高 分 辩 率 图 像 的 概率 。 


probs = discriminator (generated high resolution images) 


其 中 ，probs 表示 所 生成 图 像 属于 真实 数据 集 的 概率 。 
(7) 最 后 ,创建 并 编译 对 抗 网 络 。 


adversarial model = Model([input_low_ resolution， 
input_high resolution], [probs, features]) 
adversarial model.compile(loss=['binary_crossentropy', 'mse'], 
loss_weights=[1le-3, 1], optimizer=common _ optimizer) 


使 用 binary_crossentropy 和 mse 作为 损失 、 common_optimizer 作为 优化 器 、 
[0.001，1] 作 为 损失 权重 ,编译 对 抗 模型 。 


(8) 添加 TensorBoard， 将 训练 损失 和 网 络 图 可 视 化 。 


tensorboard = TensorBoard(log_ dir="logs/".format (time.time())) 
tensorboard.set_model (generator) 
tensorboard.set_model (discriminator) 


(9) 创建 一 个 循环 ， 运 行 指定 轮 数 。 


for epoch in range(epochs) : 
print ("Epoch: {}".format (epoch)) 


后 续 所 有 代码 都 在 该 循环 内 部 。 
(10) 接着 采样 一 批 高 分 状 率 图 像 和 低 分 辨 率 的 图 像 ， 如 下 所 示 。 


high resolution images, low_resolution images = Sample_images ( 
data_dir=data_dir, batch size=batch_ size,low_ resolution shape= 
low_resolution_ shape, high resolution shape=high resolution_ shape) 
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sample_images 函数 的 代码 如 下 所 示 。 这 段 代 码 详 细 描 述 了 其 行为 。 该 也 数 按照 步骤 加 

载 和 缩放 图 像 ， 以 生成 高 分 辩 率 图 像 和 低 分 辩 率 图 像 。 

def sample_images (data_ dir, batch size，high_resolution shape， 
low_resolution_shape): 


# 创建 一 个 包含 数据 目录 中 所 有 图 像 的 列表 
all_images = glob.glob (data_dir) 


# 随机 选择 一 批 次 的 图 像 


images_batch = np.random.choice(all images, size=batch size) 


low_resolution_ images = [] 
high_ resolution images = [] 


for img in images_batch: 
# 获取 当前 图 像 的 ndarray 
imgl = imread (img, mode='RGB') 
imgl = imgl.astype (np.float32) 


# 缩放 图 像 
imgl_high resolution = imresize(imgl, high _ resolution_shape) 
imgl_low_ resolution = imresize(imgl, low_resolution shape) 


# 随机 翻转 

if np.random.random() < 0.5: 
img1_high resolution = np.fliplr(imgl high resolution) 
imgl_low_ resolution = np.fliplr(imgl_ low resolution) 


high_resolution images.append(imgl high resolution) 
low_resolution images.append(imgl_low_ resolution) 


return np.array (high resolution images), 
np.array (low_resolution images) 


(11) 然后 将 图 像 归 一 化 ， 将 像素 值 转换 为 [-1, 1] 区 间 的 一 个 值 ， 如 下 所 示 。 


high resolution_ images = high resolution images / 127.5 - 1. 
low_resolution images = low_ resolution images / 127.5 - 1. 


将 像素 值 转换 到 -1 到 1 之 间 非 常 重要 。 生成 网 络 的 末端 是 tanh, tanh 激活 函数 将 数值 压缩 到 
同样 的 区 间 。 对 于 计算 损失 来 说 ,确保 所 有 的 数值 都 处 于 同样 的 区 间 很 有 必要 。 


5.5.2 ”训练 判别 网 络 
下 面 介绍 训练 判别 网 络 的 各 个 步 又。 接着 前 面 的 步骤 进行 。 
(1) 使 用 生成 网 络 生成 假 的 高 分 辩 率 图 像 。 


generated_ high resolution images = generator.predict (low_resolution images) 


(2) 创建 一 批 次 真 标签 和 假 标签 。 


106 第 5 章 使 用 SRGAN 生成 逼真 图 像 


real_labels = np.ones( (patch size, 16, 16, 1)) 
fake_ labels = np.zeros((batch size, 16, 16, 1)) 


(3) 在 真 图 像 和 真 标签 上 训练 判别 网 络 。 
d_loss_ real = discriminator.train on batch(high resolution images, real_labels) 


(4) 在 生成 的 图 像 和 假 标 签 上 训练 判别 网 络 。 


d_loss_fake = discriminator.train on batch(generated high resolution images, 
fake_labels) 


(5) 最 后 计算 判别 损失 总 和 。 


d_loss = 0.5 * np.add(d_loss_real, d_loss_fake) 


这 样 就 添加 好 了 训练 判别 网 络 的 代码 。 下 面 添加 训练 对 抗 模型 的 代码 ， 即 训练 生成 网 络 的 
代码 。 


5.5.3 训练 生成 网 络 
下 面 介绍 训练 生成 网 络 的 各 个 步骤。 接着 前 面 的 步骤 进行 。 
(1) 再 次 采样 一 批 次 的 高 分 辩 率 图 像 和 低 分 辩 率 图 像 ， 并 进行 归 一 化 。 


high _ resolution images, low_resolution images = Sample_images ( 
data_dir=data_dir, batch_ size=batch_size,low_ resolution_shape= 
low_resolution shape, high resolution _ shape=high resolution_ shape) 

# 将 图 像 归 一 化 

high_ resolution images = high resolution images / 127.5 - 1. 

low_resolution images = low_resolution images / 127.5 - 1. 


(2) 使 用 VGG19 网 络 提取 高 分 辨 率真 实 图 像 的 特征 映射 ( 内 部 表示 )。 


image_features = vgg.predict (high resolution images) 


(3) 然后 训练 对 抗 模型 ， 为 其 提供 适当 的 输入 ， 如 下 所 示 。 


g_loss = adversarial model.train on batch([low resolution images, 
high_ resolution images], 
[real_labels, image_ features]) 


(4) 每 轮训 练 过 后 ， 将 损失 写 入 TensorBoard 进行 可 视 化 。 


write_ log(tensorboard, 'g_loss', g_loss[0], epoch) 
write_log(tensorboard, 'd_loss', d_ loss[0], epoch) 


(5) 每 训练 100 轮 ， 使 用 生成 网 络 生成 假 的 高 分 辩 率 图 像 并 保存 ， 以 进行 可 视 化 。 


if epoch % 100 == 
high_ resolution images, low_resolution images = Sample_images ( 
data_dir=data_dir, batch size=batch_ size,low resolution shape= 
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low_resolution_ shape, high resolution shape=high resolution_ shape) 
# 将 图 像 归 一 化 


high_resolution_ images = high resolution images / 127.5 -1. 


low_resolution_ images = low_resolution_ images / 127.5 - 1. 

# 生成 高 分 辨 率 假 图 像 

generated_images = generator.predict_on batch(low_resolution images) 

# 保存 图 像 

for index, img in enumerate (generated images): 

save_images (low_resolution images [index], 

high resolution images[index], img, path="results/img_{}_{}". 
format (epoch, index)) 


可 以 根据 这 些 图 像 判 定 是 否 继续 训练 。 如 果 所 生成 的 高 分 辨 率 图 像 质量 很 好 ， 就 停止 训练 ; 
否则 就 继续 训练 ， 直 到 模型 足够 好 。 


至 此 ，SRGAN 在 CelebA 数据 集 上 的 训练 就 完成 了 ， 可 以 生成 高 分 辩 率 图 像 了 。 将 维度 为 
64x64x3 的 低 分 辩 率 图像 传递 给 generator .predict () 函数 ， 就 可 以 生成 高 分 辨 率 网 像 了 。 


5.5.4 保存 模型 


在 Keras 中 ， 保 存 模 型 只 需 一 行 代码 ， 如 下 所 示 。 
# 指定 生成 网 络 模型 的 路 径 


gen_model.savel("dqirectory/for/the/generator/mode1.h5") 


类 似 地 ， 保 存 判 别 网 络 模型 的 代码 如 下 。 
# 指定 判别 网 络 模型 的 路 径 


qis_model.savel("dqirectory/for/the/discriminator/mode1 .hn5") 


5.5.5 生成 图 像 可 视 化 
在 多 轮训 练 之 后 ， 生 成 网 络 会 开始 生成 比较 不 错 的 图 像 。 下 面 看 一 下 这 些 生成 的 图 像 。 
口 1000 轮训 练 后 ， 图 像 如 图 5-2 所 示 。 


Low Resolution Original Generate 


图 5-2 1000 轮训 练 后 生成 的 图 像 
口 5000 轮训 练 后 ， 图 像 如 图 5-3 所 示 。 
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Low Resolution Original 


Generate 


了 | “uy 
p 上 a 


图 5-3 5000 轮训 练 后 生成 的 图 像 


口 10 000 轮训 练 后 ， 图 像 如 图 5-4 所 示 。 


Low Resolution Original 


Generate 


图 5-4 ”10 000 轮训 练 后 生成 的 图 


口 15 000 轮训 练 后 ， 图 像 如 图 5-5 所 示 。 


像 


Low Resolution Original 
四 二 


图 5-5 15 000 轮训 练 后 生成 的 图 像 


口 20 000 轮训 练 后 ， 图 像 如 图 5-6 所 示 。 


Low Resolution Original 


和 
用 
、. 


Generate 


图 5-6 ”20 000 轮训 练 后 生成 的 图 像 
将 网 络 训练 30 000~50 000 轮 ， 可 生成 非常 不 错 的 图 像 。 
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5.5.6 ”损失 可 视 化 
启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 。 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ， 如 图 5-7 所 示 。 


TensorBoard SCALARS GRAPHS INACTIVE ME . 9 
Show data download links Q Filter tags (regular expressions supported) 
lgnore outliers in chart scaling 

d_loss 
Tooltip sorting method: default 
d_loss 
0.0500 
Smoothing 
0.0400 
一 全 ~ 0.5 
0.0300 
0.0200 


Horizontal Axis 


STEP RELATIVE WALL 
0.00 


012345678 9 


Runs 至 巴 ] :二 runto download w CSV JSON 
Write a regex to filter runs 
© . g_loss 
g_loss 
8.00 
6.00 
4.00 
2.00 
0.00 
0 .1234 56 7 8 9 
TOGGLE ALL RUNS 二 夺回 冯 runto download 中 CSV JSON 
srgan_logs 


图 5-7 两 种 损失 的 曲线 图 
这 些 曲 线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 ， 因 为 已 经 没 
有 提升 的 可 能 了 。 如 果 损 失 不 断 提 高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参数 以 获得 更 好 的 结果 。 
如 果 损 失 在 逐渐 降低 ， 就 继续 训练 模型 。 
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5.5.7 ”图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 果 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 5-8 )。 


5-8 ”各 图 中 的 张 量 和 不 同 运算 的 流 


5.6 SRGAN 的 实际 应 用 
SRGAN 的 实际 应 用 包括 : 


口 修复 旧 照 片 ; 

口 行业 应 用 ， 比 如 自动 提高 lgo 、 条 幅 和 宣传 页 的 分 辩 率 ; 
口 为 用 户 自动 提高 社交 媒体 图 像 的 分 辩 率 ; 

口 使 用 相机 拍摄 照片 时 自动 增强 图 像 ; 

口 提高 医学 图 像 的 分 辩 率 。 


5.7 小 结 


本 章 首先 介绍 了 SRGAN 以 及 其 生成 网 络 和 判别 网 络 的 架构 ,然后 创建 了 项 目 ， 收 集 并 探索 
了 数据 集 ,接着 使 用 Keras 实现 了 项 目 ,训练 了 SRGAN 并 评估 了 其 表现 ,最 后 简单 介绍 了 SRGAN 
的 各 种 应 用 。 


下 一 章 将 介绍 StackGAN 及 其 应 用 。 


第 6 章 
StackGAN : 基于 文本 合成 
逼真 图 像 


基于 文本 合成 图 像 是 GAN 的 用 途 之 一 ， 和 前 面 几 章 介 绍 的 GAN 类 似 ， 它 具有 广泛 的 行业 
应 用 。 基 于 文本 合成 图 像 非常 复杂 ， 因 为 能 生成 反映 文本 意义 的 图 像 模 型 不 易 构 建 。StackGAN 
就 是 为 解决 该 问题 而 设计 的 。 本章 使 用 以 TensorFlow 为 后 端的 Keras 框架 , 实现 一 个 StackGAN。 


本 章 将 讨论 以 下 主题 。 


D StackGAN 简介 

D StackGAN 架构 

口 数据 收集 和 准备 

口 StackGAN 的 Keras 实现 
口 训练 StackGAN 

口 模型 评估 

D StackGAN 的 实际 应 用 


6.1 StackGAN 简介 


如 名 所 示 ，StackGAN 是 由 两 个 GAN 扒 释 而 成 的 可 生成 高 分 辩 率 图 像 的 网 络 。StackGAN 包 
含 两 个 阶段 : 第 一 阶段 和 第 二 阶段 。 第 一 阶段 网 络 以 文本 栅 入 为 条 件 ， 生 成 具有 基础 颜色 和 框架 
的 低 分 辨 率 图 像 ; 第 二 阶段 网 络 接收 第 一 阶段 网 络 生成 的 图 像 ， 然 后 以 文本 肯 人 为 条 件 ,， 生成 高 
分 辩 率 图 像 。 简 单 说 来 ， 第 二 个 网 络 会 修正 一 些 缺 陷 , 并 添加 一 些 令 人 信服 的 细节 ， 以 获得 更 为 
逼真 的 高 分 辩 率 图 像 。 


StackGAN 的 工作 方式 类 似 于 画家 。 画 家 作画 时 ， 首 先 会 绘制 一 些 基 础 的 形状 ， 比 如 线条 、 
圆 形 和 和 矩形; 接着， 画家 会 填充 颜色 ; 随 着 绘画 过 程 的 推进 ， 添 加 更 多 细节 。 在 StackGAN 中 ， 
第 一 阶段 绘制 基础 形状 ， 第 二 阶段 修正 第 一 阶段 网 络 生成 的 图 像 中 的 缺陷 ， 并 V 添加 一 些 细节 ， 
使 图 像 看 起 来 更 逼真 。 两 个 阶段 的 生成 网 络 都 是 cGAN。 第 一 个 GAN 以 文本 描述 为 条 件 ， 第 二 
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个 以 文本 描述 和 第 一 个 GAN 生成 的 图 像 为 条 件 。 


6.2 StackGAN 架构 


StackGAN 是 一 个 二 阶段 网 络 , 每 个 阶段 都 有 一 个 生成 网 络 和 一 个 判别 网 络 。StackGAN 的 网 
络 构 成 如 下 所 示 。 


口 第 一 阶段 GAN: 文本 编码 网 络 、 
口 第 二 阶段 GAN: 文本 编码 网 络 、 


条 件 增 强 网 络 、 生 成 网 络 、 判 别 网 络 和 巾 入 压缩 网 络 。 
条 件 增 强 网 络 、 生 成 网 络 、 判 别 网 络 和 巾 入 压缩 网 络 。 


图 6-1 展示 了 StackGAN 的 两 个 阶段 ， 比 较 直 观 易 懂 。 其 中 第 一 阶段 生成 维度 为 64x64 的 图 
像 ， 然 后 第 二 阶段 接收 这 些 低 分 辨 率 图 像 ， 然 后 生成 维度 为 256x256 的 高 分 辨 率 图 像 。 下 面 详细 
介绍 StackGAN 的 各 组 件 。 在 此 之 前 ， 首 先 介 绍 本 章 使 用 的 各 种 记 法 ( 见 表 6-1 )。 


文本 描述 / 


联 和 pr | 加 
色 的 ， | 


条 件 增 强 


(CA) 


64x64 的 
生成 图 像 


dp es em ep es ep ee Dm 


人 负责 精 修 的 第 二 阶段 4 


256 x256 的 
真实 图 像 


第 二 阶段 判别 网 络 D 


E 成 网 络 G 


记 法 


图 6-1 ”StackGAN 的 两 个 阶段 
表 6-1 


描 述 


对 真实 数据 分 布 的 一 段 文本 描述 


从 高 斯 分 布 中 随机 采 档 


的 一 个 噪声 向 量 


预 训练 编码 网 络 基 


F 给 定 文 本 生成 的 一 个 文本 投入 


Co 


该 文本 条 件 变量 是 从 概率 分 布 N(x(p),>,(p)) 中 采样 的 一 个 高 斯 条 件 变 量 ， 它 捕捉 到 了 5p 的 不 同 含义 


N(p0($),2>(%)) 


个 条 件 高 斯 分 布 


N(0, 1) 


一 个 正 态 分 布 
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( 续 ) 
记 法 描 ” 述 

>(¢) 个 对 角 协 方差 矩阵 
Paata 真实 数据 分 布 

Pp 高 斯 分 布 

di 第 一 阶段 判别 网 络 

gl 第 一 阶段 生成 网 络 

d; 第 二 阶段 判别 网 络 

32 第 二 阶段 生成 网 络 

7 随机 噪声 变量 的 维度 

人 第 二 阶段 GAN 的 高 斯 潜在 变量 


6.2.1 文本 编码 网 络 


文本 编码 网 络 仅 负责 将 文本 描述 (7) 转换 为 文本 嵌入 (〈 p ) 本 章 不 会 训练 该 文本 编码 网 络 ， 
而 会 使 用 预 训练 的 文本 租 入 。 如 前 所 示 准 备 数据 ,下 载 预 训练 的 文本 舱 入 。 如 果 想 训练 自己 的 文 
本 编码 网 络 ， 请 参考 论文 “Learning Deep Representations of Fine-Grained Visual Descriptions”。 文 
本 编码 网 络 将 一 句 话 编码 为 一 个 1024 维 的 文本 租 入 。 两 个 阶段 使 用 相同 的 文本 编码 网 络 。 


6.2.2 CA 块 


CA 网 络 从 概率 分 布 WUw(%).2(%)) 中 采样 随机 潜在 变量 6 。 后 面 详细 介绍 该 分 布 。 添 加 CA 

块 有 很 多 好 处 ， 如 下 所 示 。 

D 为 网 络 增添 随机 性 。 

D 通过 捕捉 不 同 对 象 的 不 同 姿势 和 形象 ， 让 生成 网 络 变 得 稳健 。 

D 产生 更 多 的 “图 像 -文本 ”对 。 如 果 “ 图 像 - 文 本 ”对 的 数量 足够 多 ， 就 可 以 训练 出 能 应 
对 扰动 的 稳健 网 络 。 


获取 CA 变量 


通过 文本 编码 网 络 得 到 文本 舱 入 ( y 后 ,需要 将 其 传递 给 一 个 全 连接 层 ， 以 生成 一 些 数值 ， 
包括 平均 值 /和 标准 差 cy 。 然 后 使 用 这 些 数值 创建 对 角 协 方差 矩阵 ， 并 将 cy, 放 在 矩阵 ( 2( 办 ) ) 
的 对 角 线 上 。 最 后 ,使 用 jw 和 Zz 创建 高 斯 分 布 ， 形 式 如 下 。 
N(10(8),>0(9)) 
然后 从 刚刚 创建 的 高 斯 分 布 中 采样 6& 。6 的 计算 公式 如 下 。 
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cl = 上 +oON(0, 门 


上 式 浅显 易 懂 。 采样 6 的 方式 是 , 首先 与 o 的 逐 元 素 相 乘 ， 再 将 结果 与 yw 相 加 。6.5 节 中 会 
详细 介绍 CA 变量 6 的 计算 方法 。 


6.2.3 第 一 阶段 
StackGAN 主要 由 生成 网 络 和 判别 网 络 组 成 。 下 面 详细 介绍 这 两 个 网 络 。 
1. 生成 网 络 


第 一 阶段 的 生成 网 络 是 一 个 具有 多 个 上 采样 层 的 深度 卷 积 神经 网 络 。 该 生成 网 络 是 一 个 
cGAN， 以 6 和 随机 变量 z 为 条 件 。 生 成 网 络 接收 高 斯 条 件 变量 6 和 随机 噪声 变量 >， 然 后 生成 
维度 为 64x64x3 的 图 像 。 其 生成 的 低 分 辨 率 图 像 可 能 已 经 具有 了 基础 形状 和 颜色 , 但 仍 有 各 种 缺 
陷 。 其 中 z 是 从 高 斯 分 布 疡 中 采样 的 维度 为 的 随机 噪声 变量 。 生 成 网 络 生成 的 图 像 可 表示 为 
so = Go(z,66) 。 生 成 网 络 的 架构 如 图 6-2 所 示 。 


Layer (type) Output Shape Param# Connectedto 
RE criporayey oie Mo 9 
dense_1 (Dense) (None, 256) 26246 inputireltle] 
leaky_re_lu_1 (LeakyReLU) (None, 256) 0 dense1[0][l0] 
lanbda_1 (Lambda) None, 128) 0 leakyreluirolteo] 
input_2 (InputLayer) (None, 100) 0 
concatenate_1 (Concatenate) (None, 228) | 0 lanbdairolte] 
input_2[0][0] 
dense 2 (Dense) (None, 16384) 3735552 concatenate-1[0][0] 
relu1 (RelU) None, 16384) | o dense_2[o][0 
reshape_1 (Reshape) (None, 4,4,1024) 0 reluiole] 
up_sampling2d_1 (UpSampling2D) (None, 8, 8, 1024) 0 reshape[0][le] 
conv2d_1 (Conv2D)) (None, 8, 8, 512) 4718592 upsampling2d1[0][e] 
batch_normalization_1 (BatchNor (None, 8, 8, 512) 2048 conv2d_1[o][ 
relu2 (Rel) (None, 8,8,512) 0 batch_normalization1[0J[e] 
up_sanpling2d_2 (Upsampling2D) (None, 16, 16, 512) 0 relu2oro] 


图 6-2 ”第 一 阶段 的 生成 网 络 架 构 
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conv2d2 (Conv2D) (None, 16, 16, 256) 1179648 up-sampling2d2[o][0] 
batch_normalization_2 (BatchNor (None, 16, 16, 256) 1024 conv2d2[0][l0] 
re_lu3 (Rel) None, 16, 16, 256) 0 batch_normalization_2[0][0] 
up_sampling2d_3 (Upsanpling2D) (None, 32, 32, 256) 0 relu3tole] 
conv2d_3 (Conv2D)) (None, 32, 32, 128) 294912 | up_sampling2d_3[0J[0] 
batch_normalization_3 (BatchNor (None, 32, 32, 128) 512 convzd_3[o][ 
relu4 (ReLU) CNone, 32, 32, 128) 0 | batch_normalization_3[0][0] 
up_sampling2d_4 (Upsampling2D) (None, 64, 64, 128) 0 relud4tolte] 
conv2d4 (Conv2D) (None, 64, 64, 64) 73728 upsampling2d4[0][l0] | 
batch_normalization_4 (BatchNor (None, 64, 64, 64) 256 conv2d4[0][l0] 
relu5 (RelU) (None, 64, 64, 64) 0 | batch_normalization_4[0][0] 
conv2d_5 (Conv2D) (None, 64, 64, 3) 1728 relu5rolr 
activation_1 (Activation) (None, 64, 64,3) 0 | conv2d_5[gl][0 
让 
Trainable params: 10,268,480 

Non-trainable params: 1,920 


如 上 所 示 , 生成 网 络 包含 多 个 卷 积 层 ， 每 个 卷 积 层 后 面 都 跟着 一 个 批 归 一 化 层 或 激活 层 。 生 
成 网 络 仅 负责 生成 维度 为 64x64x3 的 图 像 。 介 绍 过 了 生成 网 络 ， 下 面 介绍 判别 网 络 。 


2. 判别 网 络 


和 生成 网 络 类 似 , 判别 网 络 是 深度 卷 积 神经 网 络 ， 包含 一 系列 下 采样 卷 积 层 。 下 采样 层 生成 
图 像 的 特征 映射 , 包括 遵循 真实 数据 分 布 的 真实 图 像 和 生成 网 络 生成 的 图 像 。 然 后 将 特征 映射 和 
文本 嵌入 拼接 在 一 起 。 通过 压缩 和 空间 复制 将 文本 由 入 转换 成 拼接 所 需 的 形式 。 压缩 和 空间 复制 
过 程 首先 包括 一 个 全 连接 层 ， 用 于 将 文本 舱 入 压缩 为 Na 维度 的 输出 ， 再 通过 空间 复制 转换 为 维 
度 为 MuxMaxNa 的 张 量 , 接着 沿 通 道 维度 将 特征 映射 和 经 过 压缩 和 空间 复制 的 文本 髋 入 拼接 在 一 
起 。 最 后 ， 使 用 一 个 含 一 个 节点 的 全 连接 层 进行 二 分 类 。 判 别 网 络 的 架构 如 图 6-3 所 示 。 
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Layer (type) Output Shape Param # Connected to 

input 3 (InputLayer (ne,64643) 0 
conv2d_6 (Conv2D)) (one,32,32,64) 3072 input-3[ol[ 
leaky_re_lu_2 (LeakyReLU) (None, 32, 32, 64) 0 conv2d6tolte] 
conv2d_7 (Conv2D)) (None, 16, 16, 128) 131072 leaky-relu2[rolteo] 
batch_normalization_5 (BatchNor (None, 16, 16, 128) 512 convad7rolreo] 
leaky_re_lu_3 (LeakyReLU) (None, 16, 16, 128) 6 batch_normalization_5[0][0] 
conv2d_8 (Conv2D)) (None, 8, 8, 256) 524288 leakyrelu3[olto] 
batch_normalization_6 (BatchNor (None, 8, 8, 256) 1024 conv2dsrolte] 
leaky_re_lu_4 (LeakyReLU) (None, 8, 8, 256) 0 batch_normalization_6[0][0] 
conv2d_9 (Conv2D)) (None, 4, 4, 512) 2097152 1leaky_re_lu 4[6][0 
batch_normalization_7 (BatchNor (None, 4, 4, 512) 2048 conv2dtolte] 
leaky_re_lu_5 (LeakyReLU) (None, 4, 4, 512) 0 batch_normalization_7[0][0] 
input-4 (Inputlayer) (one4,4128) 0 
concatenate_2 (Concatenate) (None, 4, 4, 640) 0 leakyrelu5rolto] 

input_4[0][0] 

conv2d_19 (Conv2D) (None, 4, 4, 512) 328192 concatenate 2[0J[e] 
batch_normalization_8 (BatchNor (None, 4, 4, 512) 2048 conv2d_19[6][0 
leaky_re_lu_6 (LeakyReLU) (None, 4, 4, 512) 0 batch_normalization_8[e][0] 
flatten_1 (Flatten) (None, 8192) 9 leakyrelu6rolto] 
dense-3 (Dense) (None,1) 8193 flatteni[o]tl0] 
activation_2 (Activation) (None,1) ee dense_3[gl][0 


Total params: 3,097,601 
Trainable params: 3,094,785 
Non-trainable params: 2,816 


图 6-3 第 一 阶段 的 判别 网 络 架 构 
3. StackGAN 第 一 阶段 的 损失 
StackGAN 第 一 阶段 使 用 了 两 种 损失 ， 分 别 是 : 
口 生成 网 络 损失 
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口 判别 网 络 损失 
判别 网 络 损失 Lb 形式 如 下 。 


Ly, 局 ye [log D, (710,9)]+ 
J ,~ paata [log(l 二 D, (Go (2z, Go )， 从 ))] 


上 式 清 楚 地 表示 了 判别 网 络 的 损失 函数 ， 其 中 两 个 网 络 都 以 文本 骨 入 为 条 件 。 
生成 网 络 损失 Ze 形式 如 下 。 


La J [log(1—D,(G,(z,60),6))]+ 
ADri (N(10(8), >0(G)) | N(O, 7D)) 


上 式 清 楚 地 表示 了 生成 网 络 的 损失 函数 , 其 中 两 个 网 络 都 以 文本 税 入 为 条 件 。 损失 函数 中 还 
包含 了 一 个 KL 散 度 项 。 


6.2.4 第 二 阶段 


StackGAN 第 二 阶段 主要 由 一 个 生成 网 络 和 一 个 判别 网 络 组 成 。 生 成 网 络 是 一 种 编码 解码 网 
络 。 该 阶段 不 会 使 用 随机 噪声 z， 因 为 在 so。( 第 一 阶段 生成 网 络 生成 的 图 像 ) 中 保留 了 假设 随 
机 性 。 

首先 使 用 预 训练 的 文本 编码 网 络 生成 高 斯 条 件 变 量 6 ,这 会 生成 相同 的 文本 税 入 $。 第 一 阶 
段 和 第 二 阶段 的 条 件 增强 网 络 的 全 连接 层 不 同 ， 以 生成 不 同 的 平均 值 和 标准 差 。 这 样 第 二 阶段 
GAN 就 可 以 学 习 捕 捉 文本 和 陪 入 中 被 第 一 阶段 GAN 忽略 的 有 用 信息 了 。 
第 一 阶段 GAN 生成 图 像 的 问题 是 不 够 生动 。 这 些 图 像 中 可 能 包含 扭曲 了 的 形状 ， 也 可 能 忽 
略 了 一 些 重要 的 细节 ， 而 这 些 细 节 对 于 生成 逼真 图 像 来 说 十 分 关键 。 第 二 阶段 GAN 基于 第 一 阶 


段 GAN 的 输出 进行 构建 ， 以 第 一 阶段 GAN 生成 的 低 分 辩 率 图 像 和 文本 描述 为 条 件 ， 修 正 缺 陷 
以 生成 高 分 辩 率 图 像 。 

1. 生成 网 络 

生成 网 络 也 是 深度 卷 积 神经 网 络 。 第 一 阶段 输出 的 结果 ( 即 低 分 辩 率 图 像 ) 经 过 几 个 下 采样 
层 传递 ， 输 出 图 像 特征 。 接 沿 通道 维度 拼接 图 像 特 征 和 文本 条 件 变量 ， 然 后 将 拼接 好 的 张 量 传递 


给 一 些 残 差 块 ， 以 学 习 图 像 和 文本 特征 的 多 模式 表示 。 最 后 , 将 上 一 步 操作 的 输出 传递 给 一 组 上 
采样 层 ， 输 出 维度 为 256x256x3 的 高 分 辩 率 图 像 。 生 成 网 络 的 架构 如 图 6-4 所 示 。 
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Layer (type) Output Shape Param# Connectedto 
inputi2 (Inputlayer) done e663) 0 
zero_padding2d_1 (Zeropadding2D (None, 66, 66, 3) 0 input2rolreo] 
conv2d_1 (Conv2D) (None, 64, 64, 128) 3456 | zeropadding2d1[0][0] 
relul1 (RelU) (None, 64, 64, 128) 0 conv2d1telte] 
zero_padding2d_2 (Zeropadding2D (None, 66, 66, 128) 9 reluitote] 
conv2d2 (Conv2D) (None, 32, 32, 256) 524288 zero_padding2d_2[o][o0] 
batch_normalization_1 (BatchNor (None, 32, 32, 256) 1024 conv2d2[0][l0] 
relu2 (ReLlU) (None, 32, 32, 256) 0 batch_normalization_1[0][0] 
input_1 (Inputlayer) (None, 1024) CR 
zero_padding2d_3 (Zeropadding2D (None, 34, 34, 256) 0 relu2rolro] 
dense 1 (Dense) (None, 256) 2624009 inputl[orl 
conv2d_3 (Conv2zD) (None, 16, 16, 512) 2097152 zeropadding2d_3[e]fe] 
leaky_re_lu_1 (LeakyReLU) (None, 256) 人 dense_1[6][ 
batch_normalization_2 (BatchNor (None, 16, 16, 512) 2048 conv2d_ 3[6l][0 
lambda_1 (Lambda) (None, 128) | 0 leakyreluitolte] | 
relu3 (Rl) (None, 16, 16, 512) 0 batch_normalization_2[0][0] 
lanbda_ 2 (Lambda) (None, 16, 16, 640) 0 lambdaitolte] 
re_lu_3[0][0] 
zero_padding2d_4 (zeropadding2D (None, 18, 18, 640) 0 lambda2tolteo] 
conv2d_4 (Conv2D) (None, 16, 16, 512) 2949120 zeropadding2d_4[e][e] 
batch_normalization_3 (BatchNor (None, 16, 16, 512) 2048 | conv2d4tolte] 
relu4 (RelU) (None, 16, 16, 512) 0 batch_normalization 3[o][o 
conv2d_5 (Conv2D)) (None, 16, 16, 512) 2359808 relu4tolte] 
batch_normalization_4 (BatchNor (None, 16, 16, 512) 2048 conv2d_ 5[o][0 
relu5 (RelU) (None, 16, 16, 512) 6 batch_normalization_ 4[o][o 
conv2d_6 (Conv2D) (None, 16, 16, 512) 2359808 relu5tto] 
batch_normalization_5 (BatchNor (None, 16, 16, 512) 2648 conv2d6folte] 
add1 (Add) None, 16, 16, 512) 0 | batch_normalization_5[0][0] 
re_lu_4[0][0] 
relu6 (Rel) (None, 16, 16, 512) 0 | addiltolte] 


图 6-4 第 二 阶段 的 生成 网 络 架 构 
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conv2d_7 (Conv2D) (None, 16, 16, 512) 2359808 re_lu_6[0][0] 
batch_normalization_6 (BatchNor (None, 16, 16, 512) 2048 convad7[olt0] 
re_lu7 (RelU) (None, 16, 16, 512) 0 batch_normalization_6[0][0] 
conv2d_8 (Conv2D) (None, 16, 16, 512) 2359808 relu7rolto] 
batch_normalization_7 (BatchNor (None, 16, 16, 512) 2048 conv2ds[oJtlo] 
add2 (hdd) (None, 16, 16, 512) 0 batch_normalization_7[0][0] 
re_lu_6[0][0] 
relu8 (ReLlU) (None,16,16, 512) 0 add2rol] 
conv2d_9 (Conv2D) (None, 16, 16, 512) 2359808 relustolto] 
batch_normalization_8 (BatchNor (None, 16, 16, 512) 2048 conv2d9toJtlo] 
relu9 (RelU) (None, 16,16, 512) 0 batch_normalization_8[0][0] 
conv2d10 (Conv2D) (None, 16, 16, 512) 2359808 relugrolte] 
batch_normalization_9 (BatchNor (None, 16, 16, 512) 2048 conv2d10ro]tle] 
add3 (Ad) (None, 16, 16, 512) 0 | batch_normalization_9[0][0] 
re_lu_8[0][0] 


add_4 (Add) (None, 16, 16, 512) 0 batch_normalization_11[0][%] 
re_lu_10[0][0] 

relu12 (Rell) CNone, 16, 16, 512) 0 add_4[o][ 
up_sampling2d_1 (Upsampling2D) (None, 32, 32, 512) 0 relulzolrog 
conv2d_13 (Conv2D) = (None, 32, 32, 512) 2359296 up-sampling2d1[0]to] 
batch_normalization_12 (BatchNo (None, 32, 32, 512) 2048 conv2d_13[ol][ 
relu13 (ReLl) (None, 32, 32, 512) 0 | batch_normalization_12[6][o] 
up_sanpling2d_2 (Upsampling2D) (None, 64, 64, 512) 0 relul3olo] 
conv2d_14 (Conv2D) = (None, 64, 64, 256) 1179648 up_sampling2d2[oJ[o] 
batch_normalization_13 (BatchNo (None, 64, 64, 256) 1024 conv2d_14[ol][ 
relu14 (Relu) (None, 64, 64, 256) 0 | batch_normalization_13[0][0] 


120 第 6 章 StackGAN: 基于 文本 合成 逼真 图 像 


up_sampling2d_3 (UpSampling2D) (None, 128, 128, 2560 relul4relrog 
conv2d_15 (Conv2D) (None, 128, 128, 128 294912 upsampling2d_3[0J[e] 
batch_normalization_14 (BatchNo (None, 128, 128, 128 512 conv2d15[0][e0] 
re_lu_15 (Relu) (None, 128, 128, 1280 batch_normalization14[0][0] 
up_sampling2d_4 (UpSampling2D) (None, 256, 256, 128 6 reluisrolte] 
conv2d_16 (Conv2D) (None, 256, 256, 64) 73728 up_sampling2d4[0][e] | 
batch_normalization_15 (BatchNo (None, 256, 256, 64) 256 conv2ad16[0][e0] 
re_lu_16 (ReLU) (None, 256, 256, 64)0 batch_normalization_15[0][0] 
conv2d_17 (Conv2D)) (None, 256, 256, 3) 1728 relui6elte] 
activation_1 (Activation) (None, 256, 256, 3) 0 conv2d7[olte0] 
Total parans: 28,649,536 
Trainable params: 28,636,864 

Non-trainable params: 12,672 


该 生成 网 络 仅 负责 使 用 低 分 辨 率 图 像 生成 高 分 辨 率 图 像 。 第 一 阶段 生成 网 络 首先 生成 低 分 辩 
率 图 像 ， 然 后 传递 给 第 二 阶段 生成 网 络 来 生成 高 分 辨 率 图 像 。 


2. 判别 网 络 


和 生成 网 络 类 似 , 判别 网 络 也 是 深度 卷 积 神经 网 络 , 但 包含 额外 的 下 采样 层 ， 因 为 输入 图 像 
比 第 一 阶段 中 判别 网 络 的 输入 图 像 更 大 。 该 判别 网 络 是 一 个 匹配 察觉 ( matching-aware ) 判别 网 
络 ， 有 助 于 实现 与 条 件 文本 更 对 应 的 图 像 。 训 练 时 ， 判 别 网 络 接收 真实 图 像 和 对 应 的 文本 描述 ， 
作为 一 对 正 样 本 。 负 样本 由 两 组 构成 , 第 一 组 是 真实 图 像 和 不 匹配 的 文本 咎 入 , 第 二 组 是 合成 图 
像 以 及 对 应 的 文本 舰 入 。 判 别 网 络 的 架构 如 图 6-5 所 示 。 


Layer (type) Output Shape Param# Connectedto 
input_3 (InputLayer) one,25625030 
conv2d_18 (Conv2D) (None, 128, 128, 64) 3072 input-3[ol[ 
leaky_re_lu_2 (LeakyReLU) (None, 128, 128, 64) 9， convzd_18[ol[ 
conv2d_19 (Conv2D) (None, 64, 64, 128) 131072 leaky_re_lu 2[o][I 
batch_normalization_16 (BatchNo (None, 64, 64, 128) 512 conv2d_19[o][ 
leaky_re_lu_3 (LeakyReLU) (None, 64, 64, 128) 0 batch_normalization_16[o][o] 
conv2d20 (Conv2D) (None, 32, 32, 256) 524288 leakyrelu3rolto] 


图 6-5 第 二 阶段 的 判别 网 络 架 构 
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batch_normalization_17 (BatchNo (None, 32, 32, 256) 1024 conv2d_28[0][0] 

leaky_re_lu_4 (LeakyReLU) (None, 32, 32, 256) 0 batch_normalization_17[0][0] 
conv2d_21 (Conv2D) (None, 16, 16, 512) 2097152 leakyrelu4to][e] 
batch_normalization_18 (BatchNo (None, 16, 16, 512) 2048 conv2ad21rolteo] 
leaky_re_lu_5 (LeakyReLU) (None, 16, 16, 512) 6 batch_normalization_18[0][0] 
conv2d_22 (Conv2D) (None, 8, 8, 1024) 8388608 leakyrelu5t0lte] 
batch_normalization_19 (BatchNo (None, 8, 8, 1024) 4096 convzd_22[6][ 
leaky_re_lu_6 (LeakyReLU) (None, 8, 8, 1024) 0 | batch_normalization_19[6][o] 
conv2d_23 (Conv2D) (None, 4, 4, 2048) 33554432 leaky_relu6[o]te] 
batch_normalization_20 (BatchNo (None, 4, 4, 2048) 8192 conv2d23[0J[0] 
leaky_re_lu_7 (LeakyReLU) (None, 4, 4, 2048) 0 | batch_normalization_20[0J[0] 
conv2d_24 (Conv2D) (None, 4, 4, 1024) 2097152 leaky-re-lu7[olt0] 
batch_normalization_21 (BatchNo (None, 4, 4, 1024) 4096 conv2d24[0][0] 
leaky_re_lu_8 (LeakyReLU) (None, 4, 4, 1024) 0 batch_normalization_21[6][o] 
conv2d_25 (Conv2D) (None, 4, 4, 512) 524288 leakyrelus8tolt0] 
batch_normalization_22 (BatchNo (None, 4, 4, 512) 2048 conv2d25[0J[0] 
conv2d_26 (Conv2D) (None, 4, 4, 128) 65536 batch_normalization_22[6][o] 
batch_normalization_23 (BatchNo (None, 4, 4, 128) 512 conv2d26[0J[l0] 
leaky_re_lu_9 (LeakyReLU) (None, 4, 4,128) 0 batch_normalization_23[0J[0] 
conv2d_27 (Conv2D) (None, 4, 4, 128) 147456 leakyrelu9tolto] 
batch_normalization_24 (BatchNo (None, 4, 4, 128) 512 conv2d27t0Jt0] 
leaky_re_lu_10 (LeakyReLU) (None, 4, 4, 128) 0 batch_normalization_24[6][o] 
conv2d_28 (Conv2D) (None,4,4,512) 589824 1leaky_re_lu_16[g][0 
batch_normalization_25 (BatchNo (None, 4, 4, 512) 2048 conv2d28[olt0] 
add5 (Add) None, 4,4,512) 0 batch_normalization_22[0][0] 


batch_normalization_25[0][0] 


leaky_re_lu_11 (LeakyReLU) (None, 4, 4, 512) 0 add_5[0][96] 

input-4 (Inputlayer) (None4,4128) 0 

concatenate_1 (Concatenate) (None, 4, 4, 640) 0 leakyrelull[olrg 
input_4[6][9] 

conv2d_29 (Conv2D)) (None,4,4,5I12) 328192 concatenate-1[0][0] 
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batch_normalization_26 (BatchNo (None，4，4，512) 2048 conv2d_29[0][5] 

leaky_re_lu_12 (LeakyReLU) (None, 4, 4, 512) 0 batch_normalization_26[0J][0] 
flatten_1 (Flatten) (None, 8192) 0 leakyrelu12rolte] 
dense-2 (Dense) (None,1) 8193 flattenl[o[l 
activation_2 (Activation) (None,1) 8 dense_2[b][0 


Total params: 48,486 ,401 
Trainable params: 48,472,833 
Non-trainable params: 13,568 


6.5 节 会 详细 介绍 判别 网 络 的 架构 。 
3. 第 二 阶段 StackGAN 的 损失 


和 其 他 GAN 类似， 第 二 阶段 GAN 的 生成 网 络 G 和 判别 网 络 DD 也 可 以 通过 将 判别 网 络 的 损 
失 最 大 化 、 生 成 网 络 的 损失 最 小 化 而 进行 训练 。 


判别 网 络 损失 Lp 形式 如 下 。 
Lb, = J [log D(1,6)]+ 
ep [log(l D(G(so ? 0), 从 ))] 


上 式 清楚 地 表示 了 判别 网 络 的 损失 函数 , 其 中 两 个 网 络 都 以 文本 向 入 为 条 件 。 一 个 主要 的 区 
上 | 是， 生成 网 络 的 输入 是 和 上 ， 其 中 so 是 第 一 阶段 生成 的 图 像 ，C 是 CA 变量 。 


生成 网 络 损失 Le 形式 如 下 。 
Le = EB, ,po llog(l— D(G(s0,0),6)]+ 
ADri (NLU(G), >($ DN NO, 7)) 


上 式 清楚 地 表示 了 生成 网 络 的 损失 函数 , 其 中 两 个 网 络 都 以 文本 向 入 为 条 件 。 损失 函数 中 还 
包含 了 一 个 KL 散 度 项 。 


当 


6.3 创建 项 目 


前 面 已 经 克隆 或 下 载 了 本 书 所 有 章节 的 完整 代码 。 其 中 目录 Chapter06 包含 本 章 的 完整 代码 。 
执行 如 下 命令 以 创建 项 目 。 


(1) 首先 访问 父 目录 ， 如 下 所 示 。 


cd Generative-Adversarial-Networks-Projects 
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(2) 从 当前 目录 切换 到 Chapter06。 


cd Chapter06 


(3) 然后 为 本 项 目 创建 一 个 Python 虚拟 环境 。 


virtualenyv venv 
Virtualenv venyv - 
Virtualenv venyv - 


本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 


p python3 # 创建 一 个 使 用 Python 3 解释 器 的 虚拟 环境 
pb python2 # 创建 一 个 使 用 Python 2 解释 器 的 虚拟 环境 


(4) 接着 启用 新 创建 的 虚拟 环境 。 
source venv/bin/activate 
启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 
(5) 然后 执行 如 下 命令 ， 安 装 requirements.txt 文件 中 列 出 的 所 需 的 库 。 
pip install -r requirements.txt 
README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创建 独立 的 虚拟 环境 来 解决 。 


这 样 就 创建 好 了 项 目 并 安装 了 所 需 的 依赖 程序 。 下 面 处 理 数据 集 。 


6.4 ”准备 数据 
本 节 使 用 CUB 数据 集 ， 该 数据 集 包含 不 同 鸟 类 的 高 分 辩 率 图 片 ， 共 11 788 张 。 此 外 ,需要 
char-CNN-RNN 文本 嵌入 ， 这 是 预 训练 的 文本 嵌入 。 请 按照 如 下 指引 下 载 并 提取 数据 集 。 


WY 


6.4.1 下 载 数据 集 
可 以 手动 下 载 CUB 数据 集 ， 地 址 为 : http://www.vision.caltech.edu/visipedia/CUB-200-2011.html。 


或 者 执行 以 下 命令 下 载 数 据 集 


Wget 
http://ww.vision.caltech.edu/visipedia-data/CUB-200-2011/CUB 200_ 2011.tgz 


O 


然后 提取 数据 集 至 data/birds/ 目 录 下 。 
访问 https://drive.google.com/open?id=0B3y_msrWZaxLT1BZdVdycDY5TEE 下 载 char-CNN-RNN 


般 入 。 
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6.4.2 ”提取 数据 集 
CUB 数据 集 是 压缩 文件 ， 提 取 命 令 如 下 。 


tar -XVZE CUB 200 2011.tgz 


使 用 以 下 命令 提取 char-CNN-RNN 髓 入 。 


unzip birds.zip 


最 后 ,将 CUB 200 2011 放 在 data/birds 目录 中 。 至 此 ， 数 据 集 就 准备 好 了 。 


6.4.3 ”探索 数据 集 
CUB 数据 集 包 含 200 种 鸟 类 的 图 片 ， 共 11 788 张 。 图 6-6 展示 了 其 中 几 张 。 


图 6-6 几 张 鸟 类 图 像 
这 4 张 图 展示 的 分 别 是 一 只 黑 脚 信天翁 、 一 只 白 腹 小 海 鹦 、 一 只 食 米 乌 和 一 只 勃 兰 特种 奖 。 
在 着 手 设 计 网 络 之 前 ， 需 要 先 理解 数据 集 。 请 务必 仔细 浏览 数据 集中 的 图 像 。 


6.5 StackGAN 的 Keras 实现 
StackGAN 的 Keras 实现 分 为 两 部 分 : 第 一 阶段 和 第 二 阶段 ， 下 面 依次 实现 。 


6.5.1 第 一 阶段 


StackGAN 的 第 一 阶段 包含 一 个 生成 网 络 、 一 个 判别 网 络 、 一 个 文本 编码 网 络 和 一 个 CA 网 络 ， 
稍 后 具体 讲解 。 生 成 网 络 接 收文 本 条 件 变 量 ( 6 ) 以 及 噪声 向 量 (x ), 经 过 一 系列 上 采样 层 之 后 ， 
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生成 维度 为 64x64x3 的 低 分 辨 率 图 像 。 判 别 网 络 接 收 该 低 分 辩 率 图 像 ， 试 图 分 辨 该 图 像 的 真 假 。 
判别 网 络 有 一 系列 下 采样 层 ， 最 后 是 一 个 拼接 层 和 一 个 分 类 层 。 下 面 详细 介绍 StackGAN 的 架构 。 


StackGAN 的 第 一 阶段 使 用 的 网 络 如 下 所 示 。 
口 一 个 文本 编码 网 络 


口 一 个 CA 网 络 
口 一 个 生成 网 络 


口 一 个 判别 网 络 
在 开始 编写 实现 代码 之 前 ， 首 先 创建 一 个 Python 文件 main.py， 然 后 导入 以 下 核心 模块 。 


import os 


import pickle 
import random 
import time 


import PIL 

import numpy as np 

import pandas as pd 

import tensorflow as tf 

from PIL import Image 

from keras import Input, Model 

from keras import backend as K 

from keras.callbacks import TensorBoard 

from keras.layers import Dense, LeakyReLU, BatchNormalization, ReLU, \ 
Reshape, UpSampling2D, Conv2D, Activation, concatenate, Flatten, Lambda, Concatenate 
from keras.optimizers import Adam 

from keras_preprocessing.image import ImageDataGenerator 

from matplotlib import pyplot as plt 


1. 文本 编码 网 络 


文本 编码 网 络 仅 负 责 将 文本 描述 (1) 转换 为 文本 嵌入 ( # )。 该 网 络 将 一 个 句子 编码 为 一 个 
1024 维 的 文本 嵌入 。 前 面 下 载 好 了 预 训练 的 char-CNN-RNN 文本 内 和 人, 下面 使 用 该 嵌入 训练 网 络 。 


2. CA 网 络 

CA 网 络 负责 将 文本 舱 入 向 量 ( p ) 转换 为 条 件 潜在 变量 ( 6 )。CA 网 络 传递 文本 艇 入 向 量 
经 过 一 个 非 线性 全 连接 层 ， 生 成 平均 值 (6) 和 对 角 协 方差 矩阵 (4b) 。 

CA 网 络 的 创建 方法 如 以 下 代码 所 示 。 

(1) 首先 创建 一 个 具有 256 个 节点 的 全 连接 层 ， 使 用 LeakyReLU 作为 激活 函数 。 


input_layer = Input (shape=(1024,)) 
x = Dense(256) (input_layer) 
mean_logsigma = LeakyReLU (alpha=0.2) (x) 


输入 形状 为 (batch_size，1024) ， 输 出 形状 为 (batch_size，256) 。 
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(2) 然后 将 mean_logsigma 拆 分 为 mean 和 1og_sigma 两 个 张 量 。 


| 
log_sigma = x[:, 128:] 


该 操作 会 创建 两 个 张 量 ， 维 度 分 别 为 (batch_size，128) 和 (batch size，128)。 


(3) 接着 使 用 如 下 代码 计算 文本 条 件 变 量 。 关 于 如 何 生成 文本 条 件 变量 ， 请 参考 6.2.2 市。 


stddev = K.exp (log_sigma) 


epsilon = K.random normal (shape=K.constant ( (mean.shape[1], ), dtype='int32')) 
C = stddev * epsilon + mean 


上 述 代 码 生 成 了 维度 为 (batch_size，128) 的 张 量 ， 即 文本 条 件 变 量 。CA 网 络 的 完整 代 
人 码 如 下 。 


def generate _c(x): 
mean = x[:, :128] 
log_sigma = Xx[:, 128:] 


stddev = K.exp(log_sigma) 
epsilon = K.random normal (shape=K.constant( (mean.shape[1], ), dtype='int32')) 
C = stddev * epsilon + mean 


return c 


条 件 块 的 完整 代码 如 下 。 


def build_ca_ model (): 
input_layer = Input (shape=(1024,)) 
x = Dense(256) (input_layer) 
mean_logsigma = LeakyReLU (alpha=0.2) (x) 


c = Lambdal(generate c) (mean_ logsigma) 
return Model (inputs=[input_layer], outputs=[c]) 


上 述 代码 中 的 pui1lg_ca_mogdel () 函数 创建 了 一 个 Keras 模型 ， 包含 一 个 全 连接 层 ， 使 用 
LeakyReLU 作为 激活 函数 。 


3. 生成 网 络 


需要 创建 的 生成 网 络 是 一 个 GAN， 以 文本 条 件 变量 为 条 件 。 该 生成 网 络 接收 从 潜在 空间 采 
样 的 随机 噪声 向 量 ， 生 成 形状 为 64x64x3 的 图 像 。 


下 面 编写 生成 网 络 的 代码 。 
(1) 首先 创建 一 个 输入 层 ， 向 网 络 传 递 输入 噪声 变量 )。 


input_layer2 = Input (shape=(100, )) 
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(2) 然后 将 文本 条 件 变量 和 噪声 变量 沿 着 维度 1 进行 拼接 。 


gen_input = Concatenate(axis=1) ([c, input_layer2]) 


其 中 ,c 是 文本 条 件 变量 。 上 一 步 编写 了 生成 文本 条 件 变 量 的 代码 ，gen_input 将 会 是 
生成 网 络 的 输入 。 


(3) 接着 创建 一 个 具有 16 384 ( 128x8x4x4 ) 个 节点 的 全 连接 层 ， 使 用 ReLU 作为 激活 函数 ， 
如 下 所 示 。 


x = Dense(128 * 8 * 4 * 4, use_ bias=False) (gen_input) 
x = ReLU() (x) 


(4) 然后 改变 上 一 层 输出 的 形状 ， 使 其 变 成 维度 为 (batch_size，4，4,128*8) 的 张 量 。 


x = Reshape((4, 4, 128 * 8), input_shape=(128 * 8 * 4 * 4,))(x) 
该 操作 将 二 维 张 量 转换 为 了 四 维 张 量 。 


(5) 接着 创建 一 个 2D 上 采样 卷 积 块 。 该 块 包括 一 个 上 采样 层 、 一 个 卷 积 层 ， 以 及 一 个 批 归 一 
化 层 。 在 进行 批 归 一 化 之 后 ， 使 用 ReLU 作为 该 块 的 激活 函数 。 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(512, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


(6) 再 创建 3 个 2D 上 采样 卷 积 块 ， 如 下 所 示 。 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(256, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

BatchNormalization() (x) 

ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(128, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

BatchNormalization() (x) 

ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(64, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


(7) 然后 创建 一 个 卷 积 层 ， 生 成 一 个 低 分 辨 率 图 像 。 


X = Conv2D(3, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = Activation(activation='tanh') (x) 
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(8) 最 后 创建 一 个 Keras 模型 ， 并 指明 网 络 的 输入 和 和 输出， 如 下 所 示 。 


stagel_gen = Model (inputs=[input_layer, input_layer2], 
outputs=[x, mean_logsigmal]) 


其 中 , x 是 模型 的 输出 ， 其 形状 为 (batch_size, 64，64，3)。 


生成 网 络 的 完整 代码 如 下 。 


def builgd_ stagel_ generator(): 


构建 一 个 生成 网 络 模型 


input_layer = Input (shape=(1024,)) 
x = Dense(256) (input_layer) 
mean_logsigma = LeakyReLU(alpha=0.2) (x) 


c = Lambda(generate c) (mean_ logsigma) 
input_layer2 = Input (shape=(100,)) 
gen_input = Concatenate(axis=1) ([c, input_layer2]) 


x = Dense(128 * 8 * 4 * 4, use bias=False) (gen_input) 
x = ReLU() (x) 


x = Reshape((4, 4, 128 * 8), input_shape=(128 * 8 * 4 * 4,))(x) 


x = UpSampling2D(size=(2, 2)) (x) 

x = Conv2D(512, kernel_size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(256, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(128, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


x = UpSampling2D(size=(2, 2 
X = Conv2D(64, kernel_ size= 

use_bias=False) ( 
x = BatchNormalization() (x) 
x = ReLU() (x) 


) ) (x) 
3, padding="same", strides=1, 
x) 
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xX = Conv2D(3, kernel_size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = Activation(activation='tanh') (x) 


stagel_gen = Model (inputs=[input_layer, input_layer2], 
outputs=[x, mean_logsigmal]) 
return stagel_ gen 


该 模型 将 CA 网 络 和 生成 网 络 组 合 在 一 个 网 络 中 。 它 接收 两 个 输入 ,返回 两 个 输出 。 输 入 是 
文本 嵌入 和 噪声 变量 ， 输 出 是 生成 的 图 像 和 mean_logsigma。 


这 样 就 实现 了 生成 网 络 ， 下 面 实现 判别 网 络 。 

4. 判别 网 络 

判别 网 络 是 分 类 器 网 络 ， 包 含 一 系列 下 采样 层 ， 将 给 定 图 像 分 类 为 真 的 或 假 的 。 
下 面 编写 判别 网 络 的 代码 。 

(1) 首先 创建 一 个 输入 层 ， 向 网 络 传递 输入 。 


input_layer = Input (shape=(64, 64, 3)) 


(2) 然后 添加 一 个 2D 卷 积 层 ， 参 数 如 下 。 


口 过 滤器 数量 : 64 

卷 积 核 大 小 : (4，4) 

步 长 : 2 

填充 方式 : same 

是 否 使 用 偏 置 量 : 和 否 

激活 函数 : LeakyReLU，alpha 值 为 0.2 


回回 ;四 二 四: 乌 


stagel_dis = Conv2D(64, (4，4)， 

padding='same', strides=2, 

input_shape=(64, 64, 3), use bias=False) (input_layer) 
stagel_ dis = LeakyReLU(alpha=0.2) (stagel_ dis) 


(3) 接着 添加 两 个 卷 积 层 ， 每 个 卷 积 层 后 面 是 一 个 批 归 一 化 层 和 一 个 LeakyReLU 激活 函数 ， 
参数 如 下 。 


口 过 滤器 数量 : 128 

口 卷 积 核 大 小 : (4，4) 

口 步 长 : 2 

口 填充 方式 : same 

口 是 否 使 用 偏 置 量 : 否 

口 激活 函数 : LeakyReLU，alpha 值 为 0.2 
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x» 


= Conv2D(128, (4, 4), padding='same', strides=2, use_bias=False) (x) 
x = BatchNormalization() (x) 
= LeakyReLU (alpha=0.2) (x) 


(4) 再 添加 一 个 2D 卷 积 层 、 一 个 批 归 一 化 层 和 一 个 LeakyReLU 激活 函数 ， 参 数 如 下 。 


口 
口 
口 
口 
口 
口 


过 滤器 数量 : 256 

卷 积 核 大 小 : (4，4) 

步 长 : 2 

填充 方式 : same 

是 否 使 用 偏 置 量 : 否 

激活 函数 : LeakyReLU，alpha 值 为 0.2 


X = Conv2D(256, (4, 4), padding='same', strides=2, use_bias=False) (x) 
x = BatchNormalization() (x) 


x LeakyReLU (alpha=0 .2) (x) 


(5) 再 添加 一 个 2D 卷 积 层 、 一 个 批 归 一 化 层 和 一 个 LeakyReLU 激活 函数 ， 参 数 如 下 。 


口 
口 
口 
口 
口 
口 


(6) 
(7) 


(8) 


DOODOD 


过 滤器 数量 : 512 

卷 积 核 大 小 : (4，4) 

步 长 : 2 

填充 方式 : same 

是 否 使 用 偏 置 量 : 和 否 

激活 函数 : LeakyReLU，alpha 值 为 0.2 


区 Conv2D (512， (4, 4), padding='same', strides=2, use bias=False) (x) 


BatchNormalization() (x) 
LeakyReLU (alpha=0.2) (x) 


再 创建 一 个 输入 层 ， 用 于 接收 经 过 空间 复制 和 压缩 的 文本 向 入 。 


input_layer2 = Input (shape=(4, 4, 128)) 


Xx 


I 省 


Xx 


添加 一 个 拼接 层 , 将 x 和 input_layer2 拼接 起 来 。 
merged_input = concatenate([x, input_layer2]) 
再 添加 一 个 2D 卷 积 层 、 一 个 批 归 一 化 层 和 一 个 LeakyReLU 激活 函数 ， 参 数 如 下 。 


过 滤器 数量 : 512 
卷 积 核 大 小 : 1 
步 长 : 1 

填充 方式 : same 

是 否 使 用 批 归 一 化 : 是 
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口 激活 函数 : LeakyReLU，alpha 值 为 0.2 
X2 = Conv2D(64 * 8, kernel_size=1, padding="same", strides=1) (merged_input) 


X2 = BatchNormalization() (x2) 
x2 = LeakyReLU (alpha=0.2) (x2) 


(9) 将 该 张 量 扁平 化 ， 然 后 添加 一 个 全 连接 分 类 层 。 


# 将 张 量 扁平 化 
x2 = Plattenm() (x2) 


BD 


X2 = Dense(1) (x2) 
X2 = Activation('sigmoid') (x2) 


(10) 最 后 ， 创 建 Keras 模型 。 
stagel_dqis = Model (inputs=[input_layer, input_layer2], outputs=[x2]) 
模型 输出 的 是 输入 图 像 属 于 真实 类 别 或 虚假 类 别 的 概率 。 判 别 网 络 的 完整 代码 如 下 。 


def build stagel discriminator(): 
input_layer = Input (shape=(64, 64, 3)) 


X = Conv2D(64, (4, 4), padding='same', strides=2, input_shape=(64, 64, 3), 
use_bias=False) (input_layer) 
x = LeakyReLU(alpha=0.2) (x) 


xX = Conv2D(128, (4, 4), padding='same', strides=2, use_bias=False) (x) 
X = BatchNormalization() (x) 
x = LeakyReLU (alpha=0.2) (x) 


X = Conv2D(256, (4, 4), padding='same', strides=2, use_ bias=False) (x) 
X = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


xX = Conv2D(512, (4, 4), padding='same', strides=2, use_ bias=False) (x) 
BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


% 
1l 


input_layer2 = Input (shape=(4, 4, 128)) 
merged_input = concatenate([x, input_layer2]) 


X2 = Conv2D(64 * 8, kernel_ size=1, padding="same", strides=1) (merged_ input) 
X2 = BatchNormalization() (x2) 

x2 = LeakyReLU (alpha=0.2) (x2) 

X2 = Flatten() (x2) 

X2 = Dense(1) (x2) 

X2 = Activation('sigmoid') (x2) 


stagel_ dis = Model (inputs=[input_layer, input_layer2], outputs=[x2]) 
return stagel dis 
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该 模型 以 低 分 辨 率 图 像 和 压缩 后 的 文本 组 入 为 输入 , 输出 概率 。 至 此 ,实现 了 判别 网 络 ， 下 
面 创建 对 抗 模型 。 
5. 对 抗 模型 
创建 对 抗 模型 ， 需 要 将 生成 网 络 和 判别 网 络 整 合 在 一 起 ， 创 建新 的 Keras 模型 。 
(1) 首先 创建 3 个 输入 层 ， 向 网 络 传递 输入 。 
def build adversarial model (gen model, dis_ model): 
input_layer = Input (shape=(1024,)) 


input_layer2 Input (shape=(100,)) 
input_layer3 Input (shape=(4, 4, 128)) 


(2) 然后 使 用 生成 网 络 输出 低 分 辩 率 图 像 。 
获取 生成 网 络 模型 的 输出 


x, mean_ logsigma = gen model([input_layer, input_layer2]) 


将 判别 网 络 设置 为 不 可 训练 


Qis_model.trainable = False 


(3) 接着 使 用 判别 网 络 得 出 概率 。 
获取 判别 网 络 模型 的 输出 


valid = dis_ model([x, input_layer3]) 


(4) 最 后 ， 创 建 对 抗 模 型 ， 接 收 3 个 输入 ， 返 回 两 个 输出 。 


model = Model (inputs=[input_layer, input_layer2, input_layer3], 
outputs=[valid, mean_ logsigmal]) 


return model 


至 此 ， 对 抗 模型 就 准备 好 了 。 对 抗 模 型 可 以 进行 端 到 端的 训练 。 前 面 介绍 了 StackGAN 第 一 
阶段 所 涉及 的 各 个 网 络 ， 下 面 着 手 实 现 StackGAN 第 二 阶段 涉及 的 各 个 网 络 。 


6.5.2 ”第 二 阶段 


StackGAN 的 第 二 阶段 和 第 一 阶段 稍 有 不 同 。 生 成 网 络 模型 的 输入 是 条 件 变 量 ( 6 ) 和 第 一 
阶段 生成 网 络 生 成 的 低 分 辨 率 图 像 。 


StackGAN 第 二 阶段 包含 5 个 组 件 。 


口 文本 编码 网 络 
口 CA 网 络 

口 下 采样 块 

口 残 差 块 

口 上 采样 块 
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文本 编码 网 络 和 CA 网 络 与 前 面 第 一 阶段 使 用 的 类 似 。 下 面 介 绍 生成 网 络 的 3 个 组 件 ， 即 下 
采样 块 、 残 差 块 和 上 采样 块 。 


1. 生成 网 络 
生成 网 络 由 3 个 模块 组 成 。 下 面 依次 为 每 个 模块 编写 代码 。 从 下 采样 块 开 始 。 
@ 下 采样 块 


下 采样 块 接收 第 一 阶段 生成 网 络 输出 的 维度 为 64x64x3 的 低 分 辩 率 图 像 ， 对 其 进行 下 采样 ， 
然后 生成 形状 为 16x16x512 的 张 量 。 其 间 图 像 会 经 过 一 系列 2D 卷 积 块 。 


下 采样 块 的 实现 代码 如 下 。 


(1) 首先 创建 第 1 个 下 采样 块 。 该 块 包含 一 个 使 用 ReLU 作为 激活 函数 的 2D 卷 积 层 。 在 执行 
2D 卷 积 操作 之 前 ， 首 先 对 输入 的 四 周 进行 零 填 充 。 该 块 中 各 层 的 配置 如 下 。 
口 填充 大 小 : (1，1) 
口 过 滤器 数量 : 128 
口 卷 积 核 大 小 : (3，3) 
口 步 长 : 1 
口 激活 函数 : ReLU 


Xx 


= ZeroPadding2D(padding=(1, 1)) (input_lr_images) 
X = Conv2D(128, kernel_size=(3, 3), strides=1, use_bias=False) (x) 
区 :RETURN (2 


(2) 然后 添加 第 2 个 卷 积 块 ， 配 置 如 下 。 


口 填充 大 小 : (1，1) 

口 过 滤器 数量 : 256 

口 卷 积 核 大 小 : (4，4) 
口 步 长 : 2 

口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : ReLU 
ZeroPadding2D(padding=(1, 1)) (x) 

Conv2D(256, kernel size=(4, 4), strides=2, use_bias=False) (x) 


BatchNormalization() (x) 
ReLU() (x) 


(3) 再 添加 一 个 卷 积 块 ， 配 置 如 下 。 
口 填充 大 小 : (1，1) 

口 过 滤器 数量 : 512 

口 卷 积 核 大 小 : (4，4) 


X 人 »% % 
中 1 
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口 步 长 : 2 

口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : ReLU 

= ZeroPadding2D(padding=(1, 1) 
= Conv2D(512, kernel_ size=(4, 


= BatchNormalization() (x) 
= ReLU() (x) 


下 采样 块 生成 形状 为 16x16x512 的 张 量 。 之 后 是 一 系列 残 差 块 。 在 将 该 张 量 传递 给 残 差 块 之 
前 ， 需 要 将 它 和 文本 条 件 变量 拼接 在 一 起 。 实 现代 码 如 下 。 

# 该 块 会 扩展 文本 条 件 变量 ， 然 后 将 其 和 编码 后 的 图 像 张 量 拼 接 在 一 起 

def joint_block(inputs) : 


GamouESL[B] 
x = inputs[1] 


) (x) 
4), strides=2, use_ bias=False) (x) 


”x » x 


Cc = K.expangd dims(c, axis=1) 
C = K.expangd_ dims(c, axis=1) 
es Rtile(e, LL LT6y" L667 11) 
return K.concatenate([c, x], axis=3) 
# 这 是 需要 添加 到 生成 网 络 的 lambda 层 
c_code = Lambda(joint block) ([c, x]) 
其 中 ,c 的 形状 是 (batch_size,，228) ,x 的 形状 是 (batch_size, 16, 16, 512)。c_code 


的 形状 会 是 (batch_size，640)。 
@ 残 差 块 
残 差 块 包含 两 个 2D 卷 积 层 ， 每 个 后 面 都 是 一 个 批 归 一 化 层 和 一 个 激活 函数 。 
(1) 首先 定义 残 差 块 ， 代 码 如 下 。 


def residual_ block(input): 


生成 网 络 中 的 残 差 块 

X = Conv2D(128 * 4, kernel_ size=(3, 3), padding='same', 
strides=1) (input) 

BatchNormalization() (x) 

ReLU() (x) 


ll 


X = Conv2D(128 * 4, kernel size=(3, 3), strides=1, 
padding='same') (x) 
x = BatchNormalization() (x) 


区 宇 , add tl TnDut]y) 
X = ReLU() (x) 
return x 


将 原始 输入 和 第 二 个 2D 卷 积 层 的 输出 相 加 ， 所 得 张 量 就 是 残 差 块 的 输出 。 
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(2) 然后 添加 一 个 2D 卷 积 块 ， 其 超 参 数 如 下 。 


口 填充 大 小 : (1，1) 

口 过 滤器 数量 : 512 

口 卷 积 核 大 小 : (3，3) 
口 步 长 : 1 

口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : ReLU 


ZeroPadding2D(padding=(1, 1))(c_code) 

Conv2D(512, kernel_ size=(3, 3), strides=1, use bias=False) (x) 
BatchNormalization() (x) 

ReLU() (x) 


(3) 接着 依次 添加 4 个 残 差 块 。 


久久 内 
中 1 


residual_block (x) 
residual_block (x) 
residual_block (x) 

(x) 


residual_block (x 


上 采样 块 会 接收 残 差 块 的 输出 向 量 。 下 面 编写 上 采样 块 的 代码 。 


»” % »% % 
中 


@ 上 采样 块 
上 采样 块 包 含 能 提高 图 像 空 间 分 辨 率 的 层 ， 生 成 维度 为 256x256x3 的 高 分 辨 率 图 像 。 


下 面 编写 上 采样 块 的 代码 。 


(1) 首先 添加 一 个 上 采样 块 ， 其 中 包含 一 个 2D 上 采样 层 、 一 个 2D 卷 积 层 、 一 个 批 归 一 化 层 [ed 
和 一 个 激活 函数 。 该 块 中 用 到 的 不 同 参数 如 下 所 示 。 


口 上 采样 大 小 : (2，2) 
口 过 滤器 数量 : 512 


口 卷 积 核 大 小 : 3 
口 填充 方式 : same 
口 步 长 : 1 
口 是 否 使 用 批 归 一 化 : 是 
口 激活 函数 : ReLU 
x = UpSampling2D(size=(2, 2)) (x) 
X = Conv2D(512, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = BatchNormalization() (x) 
x = ReLU() (x) 
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(2) 然后 再 添加 3 个 上 采样 块 。 这 些 上 采样 块 所 用 的 超 参数 见 如 下 代码 。 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(256, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

X = ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(128, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

X = BatchNormalization() (x) 

X = ReLU() (x) 


x = UpSampling2D(size=(2, 2 
X = Conv2D(64, kernel_ size 

use_bias=False) 
x = BatchNormalization() (x 
X = ReLU() (x) 


(3) 最 后 添加 卷 积 层 。 这 一 层 负责 生成 高 分 辨 率 图 像 。 


) ) (x) 
=3, padding="same", strides=1, 
(x) 

) 


X = Conv2D(3, kernel_size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = Activation('tanh') (x) 


使 用 上 面 各 个 组 件 创建 生成 网 络 模型 。 


model = Model (inputs=[input_layer, input_lr_ images], outputs=[x, mean_ logsigmal) 


这 样 就 准备 好 了 生成 网 络 模型 ， 可 用 于 生成 高 分 辩 率 图 像 。 清 晰 起 见 ， 生 成 网 络 的 完整 代码 
如 下 。 


def builgd_ stage2_generator(): 


创建 StackGAN 第 二 阶段 的 生成 网 络 


# 1. CA 网 络 
input_layer = Input (shape=(1024,)) 
input_lr_ images = Input (shape=(64, 64, 3)) 


ca = Dense(256) (input_layer) 
mean_logsigma = LeakyReLU(alpha=0.2) (ca) 
c = Lambda(generate c) (mean logsigma) 


2. 图 像 编码 网 络 
ZeroPadding2D(padding=(1, 1) 
= Conv2D(128, kernel_ size=(3, 
= ReLU() (x) 


) (input_lr_images) 
3), strides=1, use_bias=False) (x) 


X X %# 
ll 


x = ZeroPadding2D(padding=(1, 1) 


, (x) 
X = Conv2D(256, kernel_ size=(4, 


) 
4), strides=2, use_bias=False) (x) 
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x = BatchNormalization() (x) 

X= RELU(Y. (x 

x = ZeroPadding2D(padding=(1, 1)) (x) 

X = Conv2D(512, kernel_ size=(4, 4), strides=2, use_bias=False) (x) 
X = BatchNormalization() (x) 

x = ReLU() (x) 

# 拼接 块 

c_code = Lambda(joint_ block) ([c, x]) 

# 3. 残 差 块 

X = ZeroPadding2D(padding=(1, 1))(c_code) 

X = Conv2D(512, kernel_size=(3, 3), strides=1, use._ bias=False) (x) 
x = BatchNormalization() (x) 

x = ReLU() (x) 


X = residual_block 
X = residual_block 
x = residual_block 
x = residual_block 


上 采样 块 
xX = UpSampling2D(size=(2, 2)) (x) 
X = Conv2D(512, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = BatchNormalization() (x) 
x = ReLU() (x) 


x = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(256, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


xX = UpSampling2D(size=(2, 2)) (x) 

X = Conv2D(128, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 

x = BatchNormalization() (x) 

x = ReLU() (x) 


x = UpSampling2D(size=(2, 2 
X = Conv2D(64, kernel size= 

use_bias=False) ( 
x = BatchNormalization() (x) 
区 三 用 ED 可 (人 区) 


) (x) 
padding="same", strides=1, 


X = Conv2D(3, kernel_ size=3, padding="same", strides=1, 
use_bias=False) (x) 
x = Activation('tanh') (x) 


model = Model (inputs=[input_layer, input_lr_images], outputs=[x, 
mean_ logsigma]) 
return model 
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2. 判别 网 络 


StackGAN 第 二 阶段 的 判别 网 络 包括 一 系列 下 采样 层 、 一 个 拼接 块 ， 以 及 一 个 分 类 器 。 下 面 
依次 编写 每 个 块 的 代码 。 


首先 创建 一 个 输入 层 ， 如 下 所 示 。 


input_layer = Input (shape=(256, 256, 3)) 
@ 下 采样 块 

下 采样 块 的 各 层 对 图 像 进行 下 采样 。 

首先 添加 下 采样 块 各 层 。 代 码 简单 易 懂 。 


xX = Conv2D(64, (4, 4), padding='same', strides=2, input_shape=(256, 256, 3), 
use_bias=False) (input_layer) 
x = LeakyReLU(alpha=0.2) (x) 


X = Conv2D(128, (4, 4), padding='same', strides=2, use_bias=False) (x) 
X = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


X = Conv2D(256, (4, 4), padding='same', strides=2, use_bias=False) (x) 
X = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


X = Conv2D(512, (4, 4), padding='same', strides=2, use_bias=False) (x) 
X = BatchNormalization() (x) 
x = LeakyReLU(alpha=0.2) (x) 


x = CONnv2D (L024 (dy 4) 
X = BatchNormalization( 
x = LeakyReLU (alpha=0.2 


， padding='same', strides=2, use_ bias=False) (x) 
) (x) 
) (x) 
X = Conv2D(2048, (4, 4) 
X = BatchNormalization( 


x = LeakyReLU (alpha=0.2 


,， padding='same', strides=2, use bias=False) (x) 
) (x) 
) (x) 
CONV2D(LOZ4,, Cl. 1) 
X = BatchNormalization( 


x = LeakyReLU(alpha=0.2 


,， padding='same', strides=1, use bias=False) (x) 
) (x) 
) (x) 
X = Conv2D(512, (1, 1), padding='same', strides=1, use_ bias=False) (x) 
x = BatchNormalization() (x) 


X2 = Conv2D(128, (1, 1), padding='same', strides=1, use bias=False) (x) 
X2 = BatchNormalization() (x2) 
x2 = LeakyReLU (alpha=0.2) (x2) 


X2 = Conv2D(128, (3, 3), padding='same', strides=1, use_ bias=False) (x2) 
X2 = BatchNormalization() (x2) 
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2 LeakyReLU (alpha=0.2) (x2) 


2 Conv2D(512, (3, 3), padding='same', strides=1, use bias=False) (x2) 
X2 = BatchNormalization() (x2) 


现 有 两 个 输出 : x 和 x2。 将 这 两 个 张 量 相 加 , 创建 一 个 形状 相同 的 张 量 , 并 应 用 LeakyReLU 
激活 函数 。 


addeqd x = add([x, x2]) 
added x = LeakyReLU(alpha=0.2) (added_x) 


@ 拼接 块 
创建 男 一 个 输入 层 ， 用 于 接收 经 过 空间 复制 和 压缩 的 向 入 。 


input_layer2 = Input (shape=(4, 4, 128)) 


将 下 采样 块 的 输出 和 空间 压缩 后 的 岁入 拼接 在 一 起 。 


input_layer2 = Input (shape=(4, 4, 128)) 


merged_input = concatenatel([addeqd x, input_layer2]) 
@ 全 连接 分 类 器 
将 合并 后 的 输入 传递 给 用 于 分 类 的 块 ， 该 块 拥有 一 个 卷 积 层 和 一 个 全 连接 层 。 


X3 = Conv2D(64 * 8, kernel_ size=1, padding="same", strides=1) (merged_input) 
X3 = BatchNormalization() (x3) 

x3 = LeakyReLU (alpha=0.2) (x3) 

X3 = Flatten() (x3) 

X3 = Dense(1) (x3) 

x3 = Activation('sigmoid') (x3) 


x3 是 判别 网 络 的 输出 ， 即 给 定 图 像 属 于 真实 类 别 或 虚假 类 别 的 概率 。 
最 后 ， 创 建 一 个 模型 。 


stage2_dis = Model (inputs=[input_layer, input_layer2], outputs=[x3]) 
如 上 所 示 ， 该 模型 接收 两 个 输入 ， 返 回 一 个 输出 。 
判别 网 络 的 完整 代码 如 下 。 


def build_ stage2_ discriminator(): 
input_layer = Input (shape=(256, 256, 3) 


X = Conv2D(64, (4, 4), padding='same', strides=2, input_shape=(256, 256, 3), 
use_bias=False) (input_layer) 
x = LeakyReLU(alpha=0.2) (x) 


X = Conv2D(128, (4, 4), padding='same', strides=2, use_ bias=False) (x) 
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BatchNormalization() (x) 
LeakyReLU (alpha=0.2) (x) 


Conv2D(256, (4, 4), padding='same', 


x BatchNormalization() (x) 

六 LeakyReLU (alpha=0.2) (x) 

x Conv2D(512, (4, 4), padding='same', 
这 BatchNormalization() (x) 

> LeakyReLU (alpha=0.2) (x) 

交 Conv2D(1024, (4, 4), padding='same' 
x BatchNormalization() (x) 

演 LeakyReLU (alpha=0.2) (x) 

x Conv2D(2048, (4, 4), padding='same' 
.4 BatchNormalization() (x) 

LeakyReLU (alpha=0.2) (x) 

x Conv2D(1024, (1, 1), padding='same' 
6 BatchNormalization() (x) 

x LeakyReLU (alpha=0.2) (x) 

x Conv2D(512, (1, 1), padding='same', 
4 BatchNormalization() (x) 

区 多 Conv2D(128, (1, 1), padding='same' 
人 BatchNormalization() (x2) 

> LeakyReLU (alpha=0 .2) (x2) 

x2 Conv2D(128, (3, 3), padding='same' 
BatchNormalization() (x2) 

六 LeakyReLU (alpha=0 .2) (x2) 

文 2 Conv2D(512, (3, 3), padding='same' 
X2 = BatchNormalization() (x2) 

added x = add([x, x2]) 

added x = LeakyReLU(alpha=0.2) (added _ x) 


input_layer2 = 


Input (shape=(4, 4, 128)) 


# 拼接 块 


merged_input = 


光 33 
3 
六 
> 
3 
X3 


stage2_dis = 


concatenate([added x, 


Conv2D(64 * 8, kernel_ size=1, 
BatchNormalization() (x3) 
LeakyReLU (alpha=0 .2) (x3) 
Flatten() (x3) 

Dense(1) (x3) 
Activation('sigmoid') (x3) 


Model (inputs=[input_layer, 


return stage2_dis 


这 样 就 创建 好 了 StackGAN 第 一 阶段 和 第 二 阶段 的 模型 。 下 面 训练 模型 。 


本 


/7 


/7 


/7 


/7 


’ 


strides=2, 


strides=2, 


strides=2, 


strides=2, 


strides=1, 


strides=1, 


strides=1, 


strides=1, 


strides=1, 


input_layer2]) 


padding="same", 


input_layer2], 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x) 


use_bias=False) (x2) 


use_bias=False) (x2) 


strides=1) (merged_input) 


outputa=1lx3)) 
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6.6 训练 StackGAN 


下 面 介绍 StackGAN 两 个 阶段 的 训练 方法 。 首 先 训练 StackGAN 的 第 一 阶段 ， 然 后 训练 
StackGAN 的 第 二 阶段 。 


6.6.1 训练 StackGAN 的 第 一 阶段 
开始 训练 之 前 ， 首 先 需要 确定 核心 超 参数 。 超 参数 是 训练 中 的 固定 数值 。 下 面 定义 超 参数 。 


data_dir = "Specify your dataset directory here/Data/birds" 
train dir = data_ dir + "/train" 
test_dir = data_ dir + "/test" 
image_size = 64 

batch size = 64 

.Am 三 让 00 

stagel_generator_lr = 0.0002 
stagel_ discriminator_lr = 0.0002 
stagel_]l]r_ decay_step = 600 
epochs = 1000 

condition dim = 128 


embeddings_file path train = train dir + "/char-CNN-RNN-embeddings.pickle" 
embeddings_file path test = test_ dir + "/char-CNN-RNN-embeddings .pickle" 


filenames_file path train = train dir + "/filenames.pickle" 
filenames_file path test = test dir + "/filenames.pickle" 


class_info_ file path train = train dir + "/class_info.pickle" 
class_info_ file path test = test_dir + "/class_info.pickle" 


cub_dataset_dir = data dir + "/CUB_ 200_2011" 
然后 需要 加 载 数 据 集 。 
1. 加 载 数 据 集 
加 载 数 据 集 分 为 几 步 ， 下 面 依次 介绍 。 
(1) 首先 需要 加 载 存储 在 一 个 pickle 文件 中 的 类 别 站。 以 下 代码 加 载 类 别 ID, 返回 包含 所 有 
类 别 ID 的 列表 。 
def loadq_class_idqs(class_info_file_path) : 


从 class_info.pickle 文件 中 加 载 类 别 id 


with open(class_info_ file path, 'rb') as f: 
class_ids = pickle.load(f, encoding='latinl') 
return class_ids 
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人 


(2) 然后 加 载 〈 存储 在 pickle 文件 中 的 ) 文件 名 。 实 现代 码 如 下 。 


def load_ filenames (filenames_file path) : 


加 载 fijlenames .pickle 文件 ， 返回 包含 所 有 文件 名 的 列表 
with open(filenames_file path, 'rb') as f: 

filenames = pickle.load(f, encoding='latinl') 
return filenames 


(3) 接着 加 载 〈 存储 在 pickle 文件 中 的 ) 文本 代入 。 加 载 文件 并 提取 文本 做 入 ， 如 下 所 示 。 


def load embeddings (embeddings_file path): 


加 载 谋 入 

with open(embeddings_file path, 'rb') as f: 
embeddings = pickle.load(f, encoding='latinl') 
embeddings = np.array (embeddings) 
print ('embeddings: ', embeddings.shape) 

return embeddings 


(4) 然后 获取 边界 框 ， 用 于 从 原始 图 像 中 提取 对 象 。 以 下 代码 清晰 展示 了 实现 方法 。 


def load _ bounding boxes (dataset_dir): 


加 载 边界 框 ， 返回 包含 文件 名 和 对 应 边界 框 的 字典 

# 路 径 

bounding_boxes_path = os.path.join(dataset_dir, 'bounding_ boxes.txt') 
file paths_path = os.path.join(dataset_ dir, 'images.txt') 


# 读 取 bounding_pboxes.txt 和 images.txt 文件 

df_bounding_boxes = pd.read csv (bounding_ boxes_path, 

delim whitespace=True, 
header=None) .astype (int) 
df_file names = pd.read csv(file paths_path, 

delim whitespace=True, header=None) 


创建 一 个 包含 文件 名 的 列表 


file names = df_file _names[1].tolist() 


创建 一 个 包含 文件 名 和 边界 框 的 字典 
filename boundingbox_dict = { 
img_file[:-4]: [] for img_file in file names[:2]} 


# 为 图 像 指定 相应 的 边界 框 
for i in range(0, len(file names)): 
# 获取 边界 框 
bounding_box = df_bounding boxes.iloc[i][1:] .tolist() 
key = file names[i][:-4] 
filename boundingbox_dict[key] = bounding_ box 


return filename boundingbox_dict 
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(5) 接着 编写 一 个 函数 来 加 载 并 裁剪 图 像 。 如 下 代码 会 加 载 图 像 并 按照 指定 的 边界 框 进行 裁 
剪 ， 并 将 图 像 缩 放 到 特定 大 小 。 


def get_img(img_path，bbox，image_size) : 

加 载 图 像 并 进行 缩放 

img = Image.open(img_path) .convert (' RGB ' ) 

width, height = img.size 

if bbox is not None: 
R = int (np.maximum(bbox[2], bbox[3]) ORY 
Center x = int((2 * bbox[0] + bbox[2]) / 2 

2 * bbox[1] + bbox[3]) / 2 


* 5) 
) 
Center y = int( ) 


yl = np.maximum center y - R) 


( 
(0 
2 i Mt center y + R) 
X1 = np.maximum(0, center x - R) 
x2 = np.minimum(width, center x + R) 
img = img.crop([xl1, yl, x2, y2]) 
img = img.resize(image_size, PIL.Image.BILINEAR) 


return img 


(6) 然后 将 以 上 所 有 函数 整合 在 一 起 ， 获 取 训 练 所 需 的 数据 集 。 如 下 代码 会 返回 所 有 图 像 、 
对 应 标签 ， 以 及 对 应 的 瞬 入 用 于 训练 。 


def load dataset (filenames_file path, class_info_ file path, 

cub_dataset_dir, embeddings_file path, image_size): 
filenames = load_ filenames (filenames_file path) 
class_ids = load class_ids(class_info_ file path) 
bounding_boxes = load _ bounding_ boxes (cub_dataset_dir) 
all_embeddings = load embeddings (embeddings_file path) 


XxX, y, embeddings = [], [], [] 

# TODO: 修改 文件 名 索引 

for index, filename in enumerate(filenames{[:500]): 
# 输出 (class_ids[index], filenames[index]) 
bounding_box = bounding_boxes [filename] 


ee 
# 加 载 图 像 
img_name = '{}/images/{}.jpg'.format (cub_dataset_dir., 
filename) 
img = get_img(img_name, bounding_ box, image_size) 


all_embeddings1 = all_embeddings[index, :, :] 


embedding_ix = random.randint (0, all_embeddingsl.shape[0] - 1) 
embedding = all_embeddingsl[embedding _ ix, :] 


xX.append (np.array (img)) 

y.append(class_ids[index]) 

embeddings.append (embedding) 
except Exception as e: 
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:= 


print (e) 


X= nDvarray (cx) 
y = np.array (y) 
embeddings = np.array (embeddings) 


return XxX, y, embeddings 


(7) 最后， 在 训练 中 加 载 数 据 集 。 


XxX_ train, y_train, embeddings_ train = load dataset( 
filenames_file path=filenames_file path train, 
class_info_ file path=class_info_ file path train, 
cub_dataset_dir=cub_dataset_dir, 
embeddings_file path=embeddings_file path train, 
image_size=(64, 64)) 


X_test, y_test, embeddings_test = load dataset!( 
filenames_file path=filenames_file path test， 
class_info_ file path=class_info_ file path test, 
cub_dataset_dir=cub_dataset_dir, 
embeddings_file path=embeddings_file path test, 
image_size=(64, 64)) 


这 样 就 加 载 好 了 训练 所 需 的 数据 集 ， 下 面 创建 所 需 模型 。 
2. 创建 模型 


下 面 使 用 6.5.1 节 的 函数 创建 模型 。 需 要 用 到 4 个 模型 : 1 个 生成 网 络 模型 、1 个 判别 网 络 模 
1 个 用 于 压缩 文本 骨 入 的 压缩 网 络 模型 ， 以 及 1 个 包含 生成 网 络 和 判别 网 络 的 对 抗 模型 。 


(1) 首先 定义 训练 所 需 的 优化 需 。 


dis_optimizer = Adam(lr=stagel discriminator_lr, beta 1=0.5, 
beta_2=0.999) 

gen_optimizer = Adam(lr=stagel_ generator_lr, beta_ 1=0.5, 
beta_2=0.999) 


(2) 然后 构建 并 编译 各 个 网 络 ， 如 下 所 示 。 


ca_model = build_ ca_model () 
ca_model.compile(loss="binary_crossentropy", optimizer="adam") 


stagel_dis = build stagel discriminator() 
stagel_dis.compile(loss='binary_crossentropy', 
optimizer=dis_optimizer) 


stagel_gen = build stagel generator () 
stagel_gen.compile(loss="mse", optimizer=gen_ optimizer) 


embedding_compressor_model = build embedding_ compressor_model() 
embedding_compressor_model.compile(loss="binary_crossentropy", 
optimizer="adam") 
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adversarial model = buildq_adqversarial model (gen model=stagel_gen, 
dis_model=stagel_ dis) 
adversarial model.compile(loss=['binary_crossentropy', KL_loss], 
loss_weights=[1, 2.0], optimizer=gen_optimizer, 
metrics=None) 


其 中 ，KL_loss 是 自 定义 的 损失 函数 ， 定 义 如 下 。 


def XKL_loss (y_true，yYy_pred) : 


mean = y_pred[:, :128] 
logsigma = y_pred[:, :128] 
loss = -logsigma + .5 * (-1 + K.exp(2. * logsigma) + K.square (mean)) 


loss = K.mean (loss) 
return loss 


准备 好 了 数据 集 和 模型 ， 下 面 开始 训练 模型 。 
使 用 TensorBoard 存储 损失 ， 以 进行 可 视 化 ， 如 下 所 示 。 


tensorboard = TensorBoard(log_ dir="logs/".format (time.time())) 
tensorboard.set_ model (stagel_gen) 
tensorboard.set_model (stagel _ dis) 

tensorboard.set_model (ca_model) 

tensorboard.set_model (embedding_compressor_model) 


3. 训练 模型 
训练 模型 分 为 以 下 几 步 。 


(1) 分 别 创建 包含 真实 标签 和 虚假 标签 的 两 个 张 量 ， 在 训练 生成 网 络 和 判别 网 络 时 候 会 用 到 
它们 。 使 用 第 1 章 介 绍 过 的 标签 平滑 技术 。 


real_labels = np.ones((batch size, 1), dtype=float) * 0.9 
fake_labels = np.zeros((batch_ size, 1), dtype=float) * 0.1 


(2) 然后 创建 一 个 for 循环 ， 运 行 次 数 和 指定 训练 轮 数 相同 ， 如 下 所 示 。 


for epoch in range (epochs): 


print ("Epoch is:", epoch) 
print ("Number of batches", int (Xx train.shape[0] / batch size)) 


gen_losses = [] 
dis_losses = [] 


(3) 接着 计算 批 次 数量 ， 并 且 编 写 一 个 for 循环 ， 运 行 次 数 和 指定 批 次 数量 相同 。 


number_of_batches = int (xX_train.shape[l0] / batch_ size) 
for index in range (number_of_batches): 
print ("Batch:{}".format (index+1)) 


(4) 在 当前 迭代 中 ,采样 一 批 次 数据 (一 小 批 次 )。 创建 一 个 噪声 向 量 ， 选 择 一 批 次 图 像 和 一 
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批 次 般 入 ， 然 后 将 图 像 归 一 化 。 


# 创建 一 批 次 骂 声 向 量 

z_noise = np.random.normal(0, 1, size=(batch size, z_dim)) 

image_batch = X train[index * batch size: (index + 1) * pbatch sizel] 

embedding batch = embeddings_train[index * batch size: (index + 1) * batch sizel] 


# 将 图 像 归 一 化 
image_batch = (image batch - 127.5) / 127.5 


(5) 然后 向 生成 网 络 模型 传递 empedqding_batch 和 z_noize， 以 生成 假 图 像 。 


embedding_batch 和 z_noise: 


fake_ images, _ = stagel gen.predict([embedding_ batch, z_noise], verbose=3) 


这 样 会 生成 以 一 批 次 谱 入 和 一 批 次 噪声 向 量 为 条 件 的 一 批 次 假 图 像 。 


(6) 使 用 压缩 网 络 模型 压缩 符 入 ， 然 后 对 其 进行 空间 复制 ， 转 换 成 形状 为 (patch_size，4， 
4，128) 的 向 量 。 


compressed_embedding = embedding_ compressor_model .predict_on batch (embedding_ batch) 
compressed_embedding = np.reshape (compressed_ embedding, 


(-1, 1, 1, condition dim)) 
compressed_embedding = np.tile(compressed embedding, (1, 4, 4, 1)) 


(7) 接着 使 用 生成 网 络 生成 的 假 图 像 、 真 实数 据 集 中 的 真实 图 像 ， 以 及 错误 图 像 来 训练 判别 
网 络 模型 。 


dis_loss_real = stagel dis.train on batch([image batch, compressed_ embedding], 
np.reshape (real_labels, 

(batch_size, 1))) 
dis_loss_fake = stagel dis.train on batch([fake images, compressed embeddingl], 
np.reshape (fake_labels, 

(batch_size, 1))) 
dis_loss_wrong = stagel dis.train on batch([image_ batch[:(batch size - 1)], 

compressed_ embedding[1:]],， 
np.reshape (fake_labels[1:], 

(batch_size-1, 1))) 


至 此 ， 判 别 网 络 就 完成 了 在 真实 图 像 、 虚 假 图 像 和 错误 图 像 3 组 数据 上 的 训练 。 下 面 训 
练 对 抗 模型 。 


(8) 向 对 抗 模型 提供 3 个 输入 以 及 对 应 的 真实 值 。 该 操作 计算 一 批 次 数据 的 梯度 ， 并 且 更 新 
其 权重 。 


g_loss = adversarial model.train on batch([embedding_batch, 
Zz_noise, compressed embeddingl], 
[K.ones((batch_ size, 1)) * 0.9, 
K.ones ( (patch_ size, 256)) * 0.9]) 
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(9) 然后 计算 损失 并 存储 ， 以 用 于 评估 。 持 续 输 出 不 同 的 损失 有 助 于 掌握 训练 进程 。 


d_loss = 0.5 * np.add(dqis_ loss_real，0.5 * np.add(dis_loss_wrong, 
dis_loss_fake)) 


print("d_loss:{}".format(d_loss)) 
print("g_loss:{}".format(g_loss)) 


dis_losses.append(d_ loss) 
gen_losses.append(g_loss) 


(10) 在 完成 每 轮训 练 后 ， 将 所 有 损失 写 人 TensorBoard 中 。 


write_log(tensorboard, 'discriminator_loss', np.mean(dis_losses), epoch) 
write_log(tensorboard, 'generator_loss', np.mean(gen losses{[0]), epoch) 


(11) 在 每 轮训 练 后 ， 生 成 图 像 并 保存 到 结果 目录 中 ， 以 评估 训练 进程 。 


Z_noise2 = np.random.normal(0, 1, size=(batch size, z_dim)) 
embedding_batch = embeddings_ test[0:batch size] 
fake_images, _ = stagel gen.predict_on batch([embedding batch, z_noise2]) 


# 保存 图 像 
for i, img in enumerate (fake_ images[:10]): 
save_rgb_ img (img, "results/gen_{}_{}.png".format (epoch, i)) 


其 中 ，save_rgb_img() 是 一 个 效用 函数 ， 其 定义 如 下 。 


def save_rgb_img (img, path): 


保存 rgb 图 像 


fig = plt.figure!() 
ax = fig.add subplot(1, 1, 1) 
ax.imshow (img) 


ax.axis ("off") 
ax.set_title("Image") 


plt.savefig (path) 
plt.close() 


(12) 保存 StackGAN 第 一 阶段 中 每 个 模型 的 权重 。 


stagel_gen.save weights ("stagel_ gen.h5") 
stagel_dis.save weights("stagel_ dis.h5") 


祝贺 ,已 经 顺利 完成 了 StackGAN 第 一 阶段 的 训练 。 训 练 好 的 生成 网 络 可 以 生成 维度 为 
64x64x3 的 图 像 。 这 些 图 像 具 有 基础 的 颜色 和 形状 。 下 面 训练 StackGAN 的 第 二 阶段 。 
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6.6.2 


训练 StackGAN 的 第 二 阶段 


训练 StackGAN 第 二 阶段 的 步骤 如 下 。 


首先 指定 StackGAN 第 二 阶段 训练 所 使 用 的 超 参 数 。 


# 指定 超 参 数 


data_dir = 


traiinolr eS data dlr F. T/CrAalm" 
test dir es: data dir FF /test”" 
hr_image_size = (256, 256) 
lr_image_ size = (64, 64) 
batch_size = 8 


Zz_dim 


= 100 


stagel_generator_lr = 0.0002 
stagel_ discriminator_lr = 0.0002 
stagel_]r_ decay_step = 600 


epochs 


0. 


condition dim = 128 


embeddings_file path train = train dir + 
embeddings_file path test = test_dir + "/char-CNN-RNN-embeddings .pickle" 


filenames_file path train = train dir + 
filenames_file path test = test dir + "/filenames.pickle" 


class_info_ file path train = train dir + 
class_info_file path test = test_ qir + "/class_info.pickle" 


"Path to the dataset/Data/birds" 


"/char-CNN-RNN-embeddings .pickle" 


"/filenames.pickle" 


"/class_info.pickle" 


cub_dataset_dir = data dir + "/CUB_ 200_2011" 
1. 加 载 数 据 集 
使 用 之 前 定义 的 函数 , 分 别 加 载 低 分 辩 率 数据 集 和 高 分 辩 率 数据 集 。 训 练 集 和 测试 集 需 


独 加 载 。 


9 


X_hr_ test, y_hr 


embeddings_train = 


load_dataset( 


filenames_file path=filenames_file path train, 


class_info_file path=class_info 


ile_pa 


th train, 


cub_dataset_dir=cub_dataset_dir, 
embeddings_file path=embeddings_f 


est, embeddings_test 


filenames_ 


t 
ile path=filenames_fil 
class_info_fji 


ile path=class_info_fil] 


= load_ dataset( 
-begsty 


Cntesty 


cub_dataset_dir=cub_dataset_dir, 
embeddings_file path=embeddings_f 


filenames_file path=filenames_fil 
class_info_file path=class_info 


ile_pa 


XxX_lr train, y_lr train, = load_ dataset( 
e_path_ 


ile_pa 


train, 
th train, 


cub_dataset_dir=cub_dataset_dir, 


embeddings_file path=embeddings_f 


ile_pa 


th train, image_ size=(256, 


th test, image_size=(256, 


th train, image_size=(64, 


I 


256)) 


256)) 


64)) 


要 音 
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X_lr test, y_lr test, = load dataset( 
filenames_file path=filenames_file path test, 
class_info_ file path=class_info_ file path test， 
cub_dataset_dir=cub_ dataset_dir, 
embeddings_file path=embeddings_file path test, image size=(64, 64)) 


2. 创建 模型 
如 6.5.1 节 所 示 ， 创 建 Keras 模型 。 


首先 定义 训练 所 需 的 优化 器 。 


dis_optimizer = Adam(lr=stagel discriminator_lr, beta 1=0.5, beta 2=0.999) 
gen_optimizer = Adam(lr=stagel_ generator_lr, beta_ 1=0.5, beta 2=0.999) 


选择 Adam 优化 器 ， 设 置 学 习 速 率 为 0.0002、beta_1 为 0.5、beta_2 为 0.999。 


下 面 构建 并 编译 模型 。 


stage2_dis = build stage2_ discriminator() 
tage2_dis.compile(loss='binary_crossentropy', optimizer=dis_optimizer) 


只 


stagel_gen = buildq_stage1l1_genetrator () 
tagel gen.compile(loss="binary_crossentropy", optimizer=gen optimizer) 


只 


stagel_gen.load weights ("stagel_ gen.h5") 


stage2_gen = build_ stage2_generator () 
tage2_gen.compile(loss="binary_crossentropy", optimizer=gen optimizer) 


只 


embedding_compressor_model = build embedding_ compressor_model() 
embedding_compressor_model.compile(loss='binary_crossentropy', 
optimizer='adam') 


adversarial model = build adversarial model (stage2_gen, stage2 dis, stagel_ gen) 
adversarial model.compile(loss=['binary_crossentropy', KL_loss], 


loss_weights=[1.0, 2.0], 
optimizer=gen_ optimizer, metrics=None) 


KL loss 是 一 个 自 定义 损失 函数 ， 前 面 已 经 定义 过 了 。 

至 此 ，StackGAN 第 二 阶段 所 需 的 数据 集 和 模型 就 准备 好 了 ， 下 面 训练 模型 。 
3. 训练 模型 

训练 模型 的 步 又 如 下 。 

(1) 首先 添加 TensorBoard 以 存储 损失 。 


tensorboard = TensorBoard(log_dir="logs/".format (time.time())) 
tensorboard.set_model (stage2_gen) 
tensorboard.set_model (stage2_dis) 
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(2) 然后 分 别 创建 真实 类 别 标签 和 虚假 类 别 标签 的 张 量 ， 在 训练 生成 网 络 和 判别 网 络 时 需 会 
用 到 它们 。 运 用 第 1 章 介绍 过 的 标签 平滑 技术 。 


real_labels = np.ones( (batch_ size, 1), dtype=float) * 0.9 
fake_labels = np.zeros((batch size, 1), dtype=float) * 0.1 


(3) 接着 创建 一 个 for 循环 ， 运 行 次 数 和 指定 训练 轮 数 相同 ， 如 下 所 示 。 


for epoch in range (epochs): 


gen_losses [] 
dis_losses = [] 


(4) 在 训练 轮 循环 内 部 再 创建 一 个 循环 ， 运 行 次 数 和 指定 批 次 数 相同 。 


print ("Number of batches:{}".format (number_of_batches)) 
for index in range (number_of_batches): 
print ("Batch:{}".format (index)) 


(5) 采样 训练 所 需 的 数据 。 
# 创建 一 小 批 次 噪声 向 量 


z_noise = np.random.normal(0, 1, size=(batch size, z_dim)) 
X_hr train batch = XxX_ hr train[index * batch size: (index + 1) * patch sizel] 
embedding_ batch = embeddings_train[index * batch size: (index + 1) * batch sizel] 


# 将 图 像 归 一 化 
X hr train. batch = (X hr train batceh = 27235) / 127;.5 
(6) 接着 使 用 生成 网 络 生 成 维度 为 256x256x2 的 假 图 像 。 在 这 一 步 中 , 首先 使 用 第 一 阶段 生成 
网 络 生成 低 分 辩 率 的 假 图 像 ， 然 后 使 用 第 二 阶段 生成 网 络 基于 低 分 辩 率 图 像 生成 高 分 辩 率 图 像 。 


lr_fake images, _ = stagel gen.predict([embedding batch, z_noisel], 
verbose=3) 
hr_fake_ images, _ = stage2_gen.predict([embedding batch, lr_fake images], 


verbose=3) 


(7) 使 用 压缩 网 络 模型 对 能 人 进行 压缩 和 空间 复制 , 将 其 转换 成 形状 为 (batch_size，4，4， 
128) 的 张 量 。 


Compbressedq_embedqdqing = embedding_ compressor_ model.predict_on batch (embedding_ batch) 
compressed _ embedding = np.reshape (compressed embedding, 

(-1, 1, 1, condition_ dim)) 
compressed _ embedding = np.tile(compressed embedding, (1, 4, 4, 1)) 


(8) 接着 使 用 假 图 像 、 真 图 像 和 错误 图 像 训练 判别 网 络 。 


dis_loss_real = stage2 dis.train on batch([x_ hr train batch, compressed embedding], 
np.reshape (real_labels, 
(batch_size, 1))) 
dis_loss_fake = stage2 dis.train on batch([hr_ fake images, 
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compressed_ embedding], 
np.reshape (fake_labels, 
(batch_ size, 1))) 
dis_loss wrong = stage2_ dis.train on batch([X hr train batchl[: (batch size - 1)]， 
compressed_embedding[1:]],， 
np.reshape (fake_labels[l1:], 
(batch_size-1, 1))) 


(9) 然后 训练 对 抗 模型 ， 这 是 生成 网 络 模型 和 判别 网 络 模型 的 组 合 。 向 对 抗 模型 提供 3 个 输 
入 和 对 应 的 真实 值 。 


g_loss = adversarial model.train on batch([embedding_batch, 
Zz_noise, compressed embedding], 
[K.ones ( (batch_size，1)) * 0.9, 
K.ones( (batch_size，256)) * 0.9]) 


(10) 计算 损失 并 存储 ， 以 用 于 评 佑 。 


d_loss =0.5 x np.add(dis_ loss_ real, 0.5 * np.add(dis_ loss_wrong, dis_loss_fake)) 
print("d_loss:{}".format (d_loss)) 


print("g_loss:{}".format(g_loss)) 


# 每 轮训 练 后 ， 将 损失 写 人 TensorBoard 中 。 


write_log(tensorboard, 'discriminator_loss', 
np.mean(dis_losses), epoch) 

write_log(tensorboard, '‘'generator_loss', 
np.meanl(gen_losses) [0], epoch) 


(11) 每 轮训 练 过 后 ， 生 成 图 像 并 保存 到 结果 目录 ， 以 评估 训练 进程 。 以 下 代码 只 保存 生成 的 
第 一 张 图 像 ， 可 适当 修改 ， 以 保存 所 需 图 像 。 
# 每 两 轮 生成 并 保存 图 像 


if epoch %$ 2 == 0: 
# ZzZ_noise2 = np.random.uniform(-1, 1, size=(batch size, z_dim)) 
z_noise2 = np.random.normal (0, 1, size=(batch size, z_dim)) 


embedding_batch = embeddings_test[0:batch sizel 


lr_fake images, _ = stagel gen.predict([embedding batch, z_noise2], 
verbose=3) 
hr_fake_ images, _ = stage2_gen.predict([embedding batch, lr_fake_ images], 


verbose=3) 
# 保存 图 像 


for i, img in enumerate(hr_fake images[:10]): 
save_rgb_ img (img, "results2/gen_{}_{}.png".format (epoch, i)) 


其 中 ，save_rgb_img () 是 一 个 效用 函数 ， 是 在 6.6.1 节 定 义 的 。 


(12) 最 后 ， 保 存 模型 权重 值 。 


152 第 6 章 StackGAN: 基于 文本 合成 逼真 图 像 


# 保存 模型 
stage2_gen.save weights ("stage2_ gen.h5") 
stage2_dis.save weights("stage2_ dis.h5") 


祝贺 ,顺利 完成 了 StackGAN 第 二 阶段 的 训练 。 所 得 生成 网 络 可 以 生成 维度 为 256x256x3 的 
通 真 图 像 。 如 果 向 该 生成 网 络 提供 文本 戏 和 信和 噪声 向 量 ， 可 以 生成 分 辨 率 为 256x256x3 的 图 像 。 
下 面 将 网 络 的 损失 图 可 视 化 。 
6.6.3 生成 图 像 可 视 化 

500 轮训 练 后 ， 生 成 网 络 会 开始 生成 比较 不 错 的 图 像 ， 如 图 6-7 所 示 。 


图 6-7 StackGAN 第 一 阶段 和 第 二 阶段 生成 的 图 像 
建议 将 网 络 训练 1000 轮 。 一切 顺利 的 话 ，1000 轮训 练 后 , 生成 网 络 会 开始 生成 逼真 的 图 像 。 


6.6.4 损失 可 视 化 
启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 。 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ， 如 下 所 示 。 


第 一 阶段 判别 网 络 的 损失 图 如 下 ( 见 图 6-8 )。 
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图 6-8 ”第 一 阶段 判别 网 络 的 损失 图 
第 一 阶段 生成 网 络 的 损失 图 如 下 见 图 6-9 )。 


generator loss 


0.800 
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图 6-9 第 一 阶段 生成 网 络 的 损失 图 (x 
类 似 地 ， 也 可 以 通过 TensorBoard 获得 第 二 阶段 生成 网 络 和 判别 网 络 的 损失 图 。 


这 些 曲线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 ， 因 为 已 经 没 
有 提升 的 可 能 了 。 如 果 损 失 不 断 提高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参 数 以 获得 更 好 的 结 
如 果 损 失 在 逐渐 降低 ， 就 继续 训练 模型 。 


6.6.5 ”图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 果 这 两 个 网 络 表现 不 佳 ， 这些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运 算 的 流 ( 见 图 6-10 )。 
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ee Ea 
图 6-10 各 图 中 的 张 量 和 不 同 运算 的 流 


6.7 StackGAN 的 实际 应 用 
StackGAN 的 行业 应 用 包括 以 下 几 种 。 


口 自动 生成 高 分 状 率 图 像 ， 用 于 娱乐 或 教育 。 

口 漫画 创作 : 利用 StackGAN， 漫 画 创 作 过 程 可 以 缩短 到 几 日 ， 因 为 StackGAN 可 以 自动 生 
成 漫画 ， 协 助 创作 。 

口 电影 创作 : StackGAN 可 以 基于 文本 生成 帧 ， 从 而 协助 电影 创作 者 。 

口 艺术 创作 : StackGAN 可 以 基于 文本 生成 草图 ， 从 而 协助 艺术 家 


6.8 小 结 


本 章 介 绍 了 基于 文本 生成 高 分 辩 率 图 像 的 StackGAN 的 实现 方法 ,首先 简单 介绍 了 StackGAN， 
探讨 了 StackGAN 的 具体 架构 和 训练 StackGAN 所 用 的 损失 函数 ， 然 后 下 载 并 准备 了 数据 集 ， 接 
着 使 用 Keras 框架 实现 了 StackGAN ， 随 后 依次 训练 了 StackGAN 的 第 一 阶段 和 第 二 阶段 ， 最 后 
评估 了 训练 后 的 模型 ， 保 存 成 果 以 供 后 续 使 用 。 


下 一 章 会 介绍 CycleGAN， 它 可 以 将 绘画 转换 成 照片 。 


使 用 CycleGAN 将 绘画 
转换 为 照片 


CycleGAN 用 于 跨 领域 变换 ， 比 如 改变 图 像 的 风格 、 将 绘画 转换 成 照片 (或 者 反 过 来 )、 照 
片 增强 改变 照片 的 季节 , 等 等 ,CycleGAN 是 由 Jun-Yan Zhu、 Taesung Park、Phillip Isola 和 Alexei 
A. Efros 在 论文 “npaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks” 
中 提出 的 。 该 论文 于 2018 年 2 月 在 加 州 大 学 伯克利 分 校 的 伯克利 人 工 智能 研究 院 (Berkeley AI 
Research ，BAIR ) 完成 。 由 于 用 途 广泛 ，CycleGAN 在 GAN 社区 引起 了 一 阵 缀 动 。 本 章 介绍 
CycleGAN， 并 使 用 CycleGAN 将 绘画 转换 成 照片 。 

本 章 将 讨论 以 下 主题 。 
口 CycleGAN 简介 
口 CycleGAN 架构 
口 数据 收集 和 准备 
口 CycleGAN 的 Keras 实现 


口 目标 函数 
口 训练 CycleGAN 


口 CycleGAN 的 实际 应 用 


7.1 CycleGAN 简介 


如 果 要 用 普通 GAN 将 照片 转换 为 绘画 ( 或 着 反 过 来 )， 需 要 使 用 成 对 的 图 像 进行 训练 。 而 
CycleGAN 是 一 种 特殊 的 GAN， 无 须 使 用 成 对 图 像 进行 训练 ， 便 可 以 将 图 像 从 一 个 领域 忒 变换 
到 男 一 个 领域 Y,CycleGAN 训练 学 习 两 种 映射 的 生成 网 络 。 绝 大 多 数 GAN 训练 只 一 个 生成 网 络 ， 
而 CycleGAN 会 训练 两 个 生成 网 络 和 两 个 判别 网 络 。 


CycleGAN 包含 如 下 两 个 生成 网 络 。 
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口 生成 网 络 A: 学 习 映 射 G: 五 >*Y， 其 中 邓 是 源 领域 ,了 是 目标 领域 。 该 映射 接收 源 领域 4 
的 图 像 ， 将 其 转换 成 和 目标 领域 B 中 的 图 像 相 似 的 图 像 。 简 单 说 来 ， 该 网 络 则 在 学 习 能 
使 GOD 和 了 相似 的 映射 。 

口 生成 网 络 B: 学 习 映 射 FF: 区 >*X， 接收 目标 领域 3 的 图 像 ,将 其 转换 成 和 源 领域 4 中 国 像 

相似 的 图 像 。 类 似 地 ， 该 网 络 旨 在 学 习 能 使 FG(W)) 和 了 相似 的 映射 。 


两 个 网 络 的 架构 相同 ， 但 都 单独 训练 。 
CycleGAN 包含 如 下 两 个 判别 网 络 。 


口 判别 网 络 A: 判别 网 络 A 负责 区 分 生成 网 络 B 生 成 的 图 像 (用 (DD) 表示 ) 和 源 领 域 A 中 
的 真实 图 像 ( 表示 为 X)。 

口 判别 网 络 B: 判别 网 络 B 负责 区 分 生成 网 络 A 生成 的 图 像 (用 CCD 表示 ) 和 目标 领域 如 
中 的 真实 图 像 ( 表示 为 了 )。 


两 个 网 络 的 架构 相同 。 类 似 于 生成 网 络 ， 两 个 判别 网 络 需 要 单独 训练 ， 如 图 7-1 所 示 。 


图 7-1 拥有 两 个 生成 网 络 和 两 个 判别 网 络 的 对 抗 模型 


下 面具 体 介 绍 CycleGAN 架构 。 


7.1.1 CycleGAN 架构 


CycleGAN 由 生成 网 络 架构 和 判别 网 络 架构 组 成 。 生 成 网 络 架 构 用 于 创建 两 个 模型 : 生成 网 
络 A 和 生成 网 络 B。 判 别 网 络 架构 用 于 创建 另外 两 个 模型 : 判别 网 络 A 和 判别 网 络 B。 下 面 依 
次 介绍 两 种 网 络 架 构 。 

1. 生成 网 络 架构 

该 生成 网 络 是 一 种 自 编码 网 络 ， 接 收 图 像 作 为 输入 , 输出 其 他 图 像 。 它 由 一 个 编码 网 络 和 一 
个 解码 网 络 组 成 。 编码 网 络 包含 能 进行 下 采样 的 卷 积 层 , 将 形状 为 128x128x3 的 输入 转换 成 内 部 
表示 。 解 码 网 络 包含 两 个 上 采样 块 和 一 个 最 终 的 卷 积 层 ， 将 内 部 表示 转换 成 形状 为 128x128x3 
的 输出 。 


7.1 CycleGAN 简介 


157 


生成 网 络 由 如 下 这 些 块 组 成 。 


口 卷 积 块 
口 残 差 块 


口 上 采样 块 
口 最 终 的 卷 积 层 


下 面 逐 一 介绍 这 些 块 。 


口 卷 积 块 : 卷 积 块 包含 一 个 2D 卷 积 层 和 一 个 实例 归 一 化 层 ， 使 用 ReLU 作为 激活 函数 。 关 


于 实例 归 一 化 的 更 多 信息 ， 


请 参考 第 1 章 。 


生成 网 络 包含 3 个 卷 积 块 ， 各 卷 积 块 的 配置 如 表 7-1 所 示 。 


表 7-1 
层 名 称 超 参 数 输入 形状 输出 形状 
a £il 232," 1_size=7， 
2D 卷 积 层 9 a (128, 128, 32) (128, 128, 32) 
strides=1, padding='same' 
实例 归 一 化 层 axis=1 (128, 128, 32) (128, 128, 32) 
激活 层 activation='relu' (128, 128, 32) (128, 128, 32) 
fil =64, k 1_size=3， 
2D 卷 积 层 rs So (DW :ee (64, 64, 64) 
strides=2, padding='same' 
实例 归 一 化 层 axis=1 (64, 64, 64) (64, 64, 64) 
激活 层 activation='relu' (64, 64, 64) (64, 64, 64) 
filters=128, 
2D 卷 积 层 kernel]_ size=3, strides=2, (64, 64, 64) (Sy 
padding=' same' 
实例 归 一 化 层 axis=1 (32，32，128) (32，32，128) 
激活 层 activation='relu' (32，32，128) (32，32，128) 


D 残 差 块 : 残 差 块 包含 两 个 2D 卷 积 层 , 每 个 卷 积 层 后 面 都 有 一 个 批 归 一 化 层 , 其 momentun 
值 为 0.8。 生 成 网 络 包含 6 个 残 差 块 ， 各 残 差 块 的 配置 如 表 7-2 所 示 。 


表 7-2 

层 名 称 超 参数 输入 形状 输出 形状 

filters=128, 
站 刁 kernel_ size=3, 
2D 卷 积 层 tT Oe FD eh lS By 2 
1 = 

padding=' same' 

批 归 一 化 层 axis=3, momentum=0.9, (32, 32, 128) (32, 32, 128) 


epsilon=le-5 
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( 续 ) 
层 名 称 超 参 数 输入 形状 输出 形状 
filters=138, 
ye 天 已 kernel_ size=3, 
2D 卷 积 层 A (3 3 1299 (32，32，128) 
工 he 
padding=' same' 
当 is=3， tum=0.9， 
批 归 一 化 层 区 wh os (32，32，128) (32，32，128) 
记 i 
加 法 层 无 (32，32，128) (32，32，128) 


加 法 层 计 算 该 块 的 输入 张 量 和 最 后 的 批 归 一 化 层 的 输出 之 和 。 


口 上 采样 块 : 上 采样 块 包含 一 个 2D 转 置 卷 积 层 ， 使 用 ReLU 作为 激活 函数 。 生 成 网 络 包含 
两 个 上 采样 块 。 第 一 个 上 采样 块 的 配置 如 表 7-3 所 示 。 


表 7-3 
层 名 称 超 参 数 输入 形状 输出 形状 
filters=64, kernel_size=3, 
2D 转 置 卷 积 层 strides=2, padding='same', (32，32，128) (64, 64, 64) 
use_bias=False 
实例 归 一 化 层 axis=1 (64, 64, 64) (64, 64, 64) 
激活 层 activation='relu' (64, 64, 64) (64, 64, 64) 
A 7 4 
第 二 个 上 采样 块 的 配置 如 表 7-4 所 示 。 
表 7-4 
层 名 称 超 参 数 输入 形状 输出 形状 
filters=32, kernel_size=3, 
2D 转 置 卷 积 层 strides=2, padding='same', (64, 64, 64) (128, M96739) 
use_bias=False 
实例 归 一 化 层 axis=1 (128, 128, 32) (128, 128, 32) 
激活 层 activation='relu' (128, 128, 32) (128, 128, 32) 


口 最 后 的 卷 积 层 :最 后 一 层 是 一 个 2D 卷 积 层 ,使 用 tanh 作为 激活 函数 。 该 层 生 成 形状 为 (256， 
256，3) 的 图 像 。 最 后 一 层 的 配置 如 表 7-5 所 示 。 


表 7-5 
层 名 称 超 参数 输入 形状 输出 形状 
filters=3, kernel_size=7, 
2D 卷 积 层 strides=1, padding='same', (128, 128, 32) (128, 128, 3) 


activation='tanh' 
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0 这 些 超 参数 是 针对 Keras 框架 设计 的 。 如 果 使 用 其 他 框架 ， 请 做 相应 调整 。 


2. 判别 网 络 架构 


判别 网 络 的 架构 类 似 于 PatchGAN 中 的 判别 网 络 架 构 , 是 一 个 包含 几 个 卷 积 块 的 深度 卷 积 神 
经 网 络 。 简 单 说 来 ， 判 别 网 络 接收 形状 为 (128，128，3) 的 图 像 ， 然 后 判断 该 图 像 是 真是 假 。 
判别 网 络 包含 几 个 2D 零 填 充 层 。 判 别 网 络 的 具体 架构 见 表 7-6。 


表 7-6 
层 名 称 超 参 数 输入 形状 输出 形状 
输入 层 无 (128, 128, 3) (128, 128, 3) 
2D 零 填 充 层 padding (1, 1) (128, 128, 3) (130, 130, 3) 
y filters=64, kernel_ size=4 
2D 卷 积 层 , T3054 寺 30, 3 64, 64, 64 
卷 积 层 strides=2, padding='valid' ( ) ( 9 ) 
i tivation='leakyrelu', 
激活 层 0 (64, 64, 64) (64, 64, 64) 
alpha=0.2 
2D 零 填 充 层 padding (1, 1) (64, 64, 64) (66, 66, 64) 
y filters=128, kernel_ size=4 
2D 卷 积 层 g 6, 66, 64 3 32, -28 
卷 积 层 strides=2, padding='valid' 3 © ) ( ) 
实例 归 一 化 层 axis=1 (32，32，128) (32, .32, 128) 
A ivation='leakyrelu', 
激活 层 act1Vat1oDn: eakyrelu (32, 32, 128) (32, 32, 128) 
alpha=0 .2 
2D 零 填 充 层 padding (1, 1) (32，32，128) (全 34, 18) 
£il =256, Kk 1_size=4， 
2D 卷 积 层 0 (34, 34, 128) (16, 16, 256) 
strides=2, padding='valid' 
实例 归 一 化 层 axis=1 (16, 16, 256) (16, 16, 256) 
RE tivation='leakyrelu', 
激活 层 Se M6) (16, 16, 256) 
alpha=0.2 
2D 零 填 充 层 padding (1, 1) (16, 16, 256) (18, 18, 256) 
filters=512, kernel size=4 
2D 卷 积 层 l . 7 ge 
卷 积 层 strides=2, padding='valid' 人 人 
实例 归 一 化 层 axis=1 (8, 8, 512) (8, 8, 512) 
A ivation='leakyrelu', 
激活 层 activation eakyrelu (8, 8, 512) (8, 8, 512) 
alpha=0.2 
2D 零 填 充 层 padding (1, 1) (8 Bi S12) (10, 10, 512) 
filters=1, kernel size=4, 
2D 卷 积 层 strides=1, padding='valid', (10, 10, 512) (7, 7, 1) 
activation='sigmoid' 
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判别 网 络 返 回 形 状 为 (7，7，1) 的 张 量 。 介 绍 过 了 两 个 网 络 的 具体 架构 ， 下 面 介绍 训练 
CycleGAN 所 需 的 目标 函数 。 


0 2D 零 填 充 层 在 图 像 张 量 的 上 方 、 下 方 、 左 侧 和 右 侧 添加 由 0 组 成 的 行 和 列 。 


7.1.2 ”训练 目标 函数 


和 其 他 GAN 类 似 ，CycleGAN 有 一 个 训练 目标 函数 ， 需 要 在 训练 模型 时 最 小 化 。 该 损失 函 
数 是 下 面 两 种 损失 的 加 权 和 。 


(1) 对 抗 损失 。 
(2) 循环 一 致 性 损失 。 


下 面 详细 介绍 对 抗 损失 和 循环 一 致 性 损失 。 

1. 对 抗 损失 

对 抗 损失 是 来 自 概 率 分 布 A 或 概率 分 布 B 的 图 像 和 生成 网 络 生成 的 图 像 之 间 的 损失 。 该 网 
络 涉及 两 个 映射 函数 ， 都 需要 应 用 对 抗 损失 。 

映射 G :下 > 了 对 应 的 对 抗 损失 形式 如 下 。 

Lon(G,D;, X,Y)= 9, ,llog Dy (»)] 

J (x) [log(1 —D, (G(x))] 
其 中 ，x 是 概率 分 布 A 领域 的 图 像 ，y 是 概率 分 布 B 领域 的 图 像 。 判 别 网 络 D, 试 图 区 分 映射 G 
生成 的 图 像 ( 即 G(x) ) 和 概率 分 布 B 中 的 真实 图 像 y。 判 别 网 络 D, 试 图 区 分 映射 五 生 成 的 图 像 
( 即 Fy) ) 和 概率 分 布 A 中 的 真实 图 像 x。G 旨 在 将 对 抗 损失 函数 最 小 化 ， 而 对 手 刀 试图 将 该 函 
数 最 大 化 。 

2. 循环 一 到 性 损失 

如 果 仅 使 用 对 抗 损失 , 网 络 会 将 同样 一 组 输入 图 像 映 射 到 目标 领域 的 任 一 组 随机 组 合 的 图 像 
上 。 因 此 , 获得 的 任何 映射 都 可 以 习 得 一 种 类 似 于 目标 概率 分 布 的 输出 ,概率 分 布 x; 和 yj 之 间 就 
会 有 多 种 映射 方式 。 循环 一 致 性 损失 通过 减少 可 能 映射 的 数量 来 解决 该 问题 。 满足 循 环 一 致 性 的 
映射 函数 不 仅 可 以 将 领域 A 中 的 图 像 x 变换 成 领域 B 中 的 图 像 y, 还 可 以 基于 y 生 成 原始 图 像 x。 

正 向 循环 一 致 性 映射 函数 的 形式 如 下 。 


xXx—>G(xX) >F(G(xX)) Tx 


十 
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反 向 循环 一 致 性 映射 函数 的 形式 如 下 。 
yO FCFO) TY 

循环 一 致 性 损失 的 公式 如 下 。 

L(G,F)=B,,, lr(G0)) -|] 
,pol GCF 下 ] 
如 果 使 用 循环 一 致 性 损失 , 那么 通过 F(G()) 和 G(FQ0)) 进 行 重 构 的 图 像 会 分 别 与 x 和 yy 相似 。 
3. 完整 目标 函数 
完整 的 目标 函数 是 对 抗 损失 和 循环 一 致 性 损失 的 加 权 和 ， 如 下 所 示 。 


L(G,F,D,,D,)= Lo (G,D,, X,Y) 
+ Lo (F,D,,Y,X) 
+ AL,.(G,F) 


十 


其 中 ，Lean(G, Dp 总 是 第 一 个 对 抗 损失 ，Lean(7, De 7, 加 是 第 二 个 对 抗 损失 。 第 一 个 对 抗 损 
失 是 基于 对 抗 网 络 A 和 判别 网 络 B 计算 的 ， 第 二 个 对 抗 损 失 是 基于 生成 网 络 B 和 判别 网 络 A 计 
算 的 [2 


需要 优化 下 面 的 函数 ， 以 训练 CycleGAN。 


G,F = arg min max L(G,F,Dy,D,) 


上 式 表明 , 如 果 要 训练 CycleGAN, 需要 将 生成 网 络 损 失 最 小 化 , 而 将 判别 网 络 损失 最 大 化 。 
优化 后 的 网 络 能 根据 绘画 生成 照片 。 


7.2 创建 项 目 


前 面 已 经 克隆 或 下 载 了 本 书 所 有 章节 的 完整 代码 。 其 中 目录 Chapter07 包含 本 章 的 完整 代码 。 
执行 如 下 命令 以 创建 项 目 。 
(1) 首先 访问 父 目 录 ， 如 下 所 示 。 


cd Generative-Adversarial-Networks-Projects 


(2) 从 当前 目录 切换 到 Chapter07， 如 下 所 示 。 


cd Chapter07 


(3) 然后 为 本 项 目 创建 一 个 Python 虚拟 环境 ， 如 下 所 示 。 
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virtualenv venv 
virtualenv venv -p python3 # 创建 一 个 使 用 Python 3 解释 器 的 虚拟 环境 
Virtualenv venv -D python2 # 创建 一 个 使 用 Python 2 解释 器 的 虚拟 环境 


本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 
(4) 启用 新 创建 的 虚拟 环境 ， 如 下 所 示 。 


source venv/bin/activate 


启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 
(5) 执行 如 下 命令 ， 安 装 requirements.txt 文件 中 列 出 的 所 需 的 库 。 


pip install -r requirements.txt 


README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创建 独立 的 虚拟 环境 来 解决 。 


这 样 就 创建 好 了 项 目 且 安装 了 所 需 的 依赖 程序 。 下 面 处 理 数据 集 。 


7.3 下 载 数 据 集 

本 章 使 用 monet2photo 数据 集 。 该 开源 数据 集 由 加 州 大 学 伯克利 分 校 的 BAIR 提供 ， 下 载 地 
址 为 : https://people.eecs.berkeley.edu/~taesung_park/CycleGAN/datasets/monet2photo.zip。 

下 载 之 后 解压 到 根 目录 下 。 

也 可 以 执行 以 下 命令 ， 自 动 下 载 数 据 集 。 

wget 


https://people.eecs.berkeley.edu/~taesung park/CycleGAN/datasets/monet2photo.zip 
upzip monet2photo.zip 


该 命令 会 下 载 数 据 集 ， 并 解压 到 项 目的 根 目录 下 。 


monet2photo 数据 集 仅 用 于 教学 。 如 想 商 用 ， 需 获 加 州 大 学 伯克利 分 校 BAIR 许 
可 。 我 们 未 获 数 据 集中 图 像 的 版 权 。 


7.4 CycleGAN 的 Keras 实现 


7.1 节 讲 过 ,CycleGAN 由 一 个 生成 网 络 和 一 个 判别 网 络 组 成 。 下 面 编写 这 两 个 网 络 的 实现 
代码 。 


开始 编写 代码 之 前 ， 首 先 创建 一 个 Python 文件 main.py， 并 导入 核心 模块 ， 如 下 所 示 。 
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from glob import glob 

import matplotlib.pyplot as plt 

import numpy as np 

import tensorflow as tf 

from keras import Input, Model 

from keras.layers import Conv2D, BatchNormalization, Activation, Add, \ 
Conv2DTranspose, ZeroPadding2D, LeakyReLU 

from keras.optimizers import Adam 

from keras_contrib.layers import InstanceNormalization 

from scipy.misc import imread, imresize 


7.4.1 生成 网 络 


前 面 介 绍 过 生成 网 络 的 架构 。 下 面 使 用 Keras 框架 编写 生成 网 络 的 各 层 ， 然 后 使 用 Keras 框 
架 的 函数 式 API 创建 一 个 Keras 模型 。 


用 Keras 实现 生成 网 络 的 步骤 如 下 。 
(1) 首先 定义 生成 网 络 所 需 的 超 参数 ， 如 下 所 示 。 


input_shape = (128, 128, 3) 
residual_blocks = 6 


(2) 然后 创建 一 个 输入 层 ， 为 网 络 提供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_shape) 


(3) 添加 第 1 个 卷 积 块 ， 使 用 前 面 指 定 的 超 参 数 ， 如 下 所 示 。 


x = Conv2D(filters=32, kernel size=7, strides=1, 
padding="same") (input_layer) 

x = InstanceNormalization (axis=1) (x) 

X = Activation("relu") (x) 


(4) 添加 第 2 个 卷 积 块 ， 如 下 所 示 。 


x = Conv2D(filters=64, kernel size=3, strides=2, padding="same") (x) 
x = InstanceNormalization (axis=1) (x) 
x = ACtivation( EeLy"), (X) 

(5) 添加 第 3 个 卷 积 块 ， 如 下 所 示 。 


x = Conv2D(filters=128, kernel_ size=3, strides=2, 
padding="same") (x) 

InstanceNormalization (axis=1) (x) 

X=. Activation(t"relu") (x) 


(6) 定义 一 个 残 差 块 ， 如 下 所 示 。 


def residual block (x): 


残 差 块 


Xx 
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res = Conv2D(filters=128, kernel_ size=3, strides=1, 
padding="same") (x) 
res = BatchNormalization(axis=3, momentum=0.9, 
epsilon=1le-5) (res) 
res = Activation('relu') (res) 


res = Conv2D(filters=128, kernel_ size=3, strides=1, 
padding="same") (res) 

res = BatchNormalization(axis=3, momentum=0.9, 

epsilon=1le-5) (res) 


return Add() ([res, x]) 


然后 使 用 resiqual_block () 函数 向 模型 添加 6 个 残 差 块 ， 如 下 所 示 。 


for _ in range(residual_ pblocks): 
X = residual_block (x) 


(7) 接着 添加 一 个 上 采样 块 ， 如 下 所 示 。 


X = Conv2DTranspose (filters=64, kernel_ size=3, strides=2, 
padding='same', use bias=False) (x) 

X = InstanceNormalization (axis=1) (x) 

x = Activation("relu") (x) 


(8) 再 添加 一 个 上 采样 块 ， 如 下 所 示 。 


X = Conv2DTranspose (filters=32, kernel_ size=3, strides=2, 
padding='same', use bias=False) (x) 

x = InstanceNormalization (axis=1) (x) 

x = Activation("relu") (x) 


(9) 最 后 ， 添 加 输出 卷 积 屋 ， 如 下 所 示 。 


x = Conv2D(filters=3, kernel_ size=7, strides=1, padding="same") (x) 
output = Activation('tannh') (x) 


这 是 生成 网 络 的 最 后 一 层 ， 生 成 形状 为 (128，128，3) 的 图 像 。 
(10) 指定 网 络 的 输出 和 输入 以 创建 Keras 模型 。 


model = Model (inputs=[input_layer], outputs=[output]) 


生成 网 络 的 完整 代码 如 下 。 


def builgd_ generator(): 


使 用 下 面 定义 的 超 参 数值 创建 一 个 生成 网 络 
input_shape = (128, 128, 3) 
residual_blocks = 6 

input_layer = Input (shape=input_shape) 
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# 第 1 个 卷 积 块 

X = Conv2D(filters=32, kernel_ size=7, strides=1, padding="same") (input_layer) 
x = InstanceNormalization (axis=1) (x) 

X = Activation("relu") (x) 

# 第 2 个 卷 积 块 

X = Conv2D(filters=64, kernel_size=3, strides=2, padding="same") (x) 
x = InstanceNormalization (axis=1) (x) 

x SActivation("rel.) (x) 

# 第 3 个 卷 积 块 

X = Conv2D(filters=128, kernel_ size=3, strides=2, padding="same") (x) 
x = InstanceNormalization (axis=1) (x) 

X = Activation("relu") (x) 

# 残 差 块 


for _ in range(residual_ pblocks): 
X = residual_block (x) 


# 上 采样 块 

第 1 个 上 采样 块 

X = Conv2DTranspose (filters=64, kernel size=3, strides=2, 
padding='same', use bias=False) (x) 

x = InstanceNormalization (axis=1) (x) 

Activation("relu") (x) 


# 


% 
Il 


# 第 2 个 上 采样 块 

X = Conv2DTranspose (filters=32, kernel_ size=3, strides=2, 
padding='same', use_ bias=False) (x) 

InstanceNormalization(axis=1) (x) 

X = Activation("relu") (x) 


外 
1l 


# 最 终 卷 积 层 
xX = Conv2D(filters=3, kernel_ size=7, strides=1, padding="same") (x) 
output = Activation('tannh') (x) 


model = Model (inputs=[input_layer], outputs=[output]) 
return model 


这 样 就 创建 好 了 生成 网 络 的 Keras 模型 。 下 面 创 建 判别 网 络 的 Keras 模型 。 


7.4.2 ”判别 网 络 


前 面 介绍 过 判别 网 络 的 架构 。 下 面 使 用 Keras 框架 编写 判别 网 络 各 层 ， 然 后 使 用 Keras 框架 
的 函数 式 API 创建 一 个 Keras 模型 。 


用 Keras 实现 判别 网 络 的 步 又 如 下 。 
(1) 首先 定义 判别 网 络 所 需 的 超 参数 ， 如 下 所 示 。 
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input_shape = (128, 128, 3) 
hidden_ layers = 3 


(2) 然后 添加 一 个 输入 层 ， 为 网 络 提供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_shape) 


(3) 接 着 添加 一 个 2D 零 填 充 层 ， 如 下 所 示 。 


X = ZeroPadding2D(padding=(1, 1)) (input_layer) 
该 层 对 输入 张 量 在 x 轴 和 yy 轴 上 同时 进行 填充 。 
(4) 然后 使 用 前 面 指定 的 超 参 数 添 加 一 个 卷 积 块 ， 如 下 所 示 。 


这 Conv2D (filters=64, kernel_ size=4, strides=2, padding="valid") (x) 
x = LeakyReLU (alpha=0.2) (x) 


(5) 再 添加 一 个 2D 零 填 充 层 ， 如 下 所 示 。 


x = ZeroPadding2D(padding=(1, 1)) (x) 


(6) 然后 使 用 前 面 指定 的 超 参 数 添 加 3 个 卷 积 块 ， 如 下 所 示 。 


for i in range(1, hidden layers + 1): 
xX = Conv2D(filters=2 xx i * 64, kernel_ size=4, strides=2, 
padding="valid") (x) 
x = InstanceNormalization (axis=1) (x) 
x = LeakyReLU (alpha=0.2) (x) 
x = ZeroPadding2D(padding=(1, 1)) (x) 


每 个 卷 积 块 包含 两 个 卷 积 层 、 一 个 实例 归 一 化 层 、 一 个 激活 层 和 一 个 2D 零 填充 层 。 
(7) 为 网 络 添加 最 终 的 ( 输出 ) 卷 积 层 ， 如 下 所 示 。 


output = Conv2D(filters=1, kernel size=4, strides=1, 
activation="sigmoid") (x) 


(8) 最 后 ， 指 定 网 络 的 输入 和 输出 以 创建 Keras 模型 。 


model = Model (inputs=[input_layer], outputs=[output]) 


判别 网 络 的 完整 代码 如 下 。 


def puildq qiscriminator () : 


使 用 下 面 定义 的 超 参 数值 创建 一 个 判别 网 络 
input_shape = (128, 128, 3) 
hidden_ layers = 3 


ll 


ll 


input_layer = Input (shape=input_shape) 
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x = ZeroPadding2D(padding=(1, 1)) (input_layer) 


# 第 1 个 卷 积 块 
x = Conv2D(filters=64, kernel size=4, strides=2, padding="valid") (x) 
x = LeakyReLU (alpha=0.2) (x) 


x = ZeroPadding2D(padding=(1, 1)) (x) 


# 3 个 隐藏 卷 积 块 
for i in range(1，hidden_ layers + 1) : 
x = Conv2D(filters=2 xx i * 64, kernel_ size=4, strides=2, 
padding="valid") (x) 
x = InstanceNormalization (axis=1) (x) 
x = LeakyReLU (alpha=0.2) (x) 


x = ZeroPadding2D(padding=(1, 1)) (x) 


# 最 终 的 卷 积 层 


output = Conv2D(filters=1, kernel_ size=4, strides=1, activation="sigmoid") (x) 


model = Model (inputs=[input_layer], outputs=[output]) 
return model 


这 样 就 创建 好 了 判别 网 络 的 Keras 模型 。 下 面 训练 网 络 。 


7.5 训练 CycleGAN 


7.1 市 介绍 了 训练 目标 函数 ， 并 且 两 个 网 络 的 Keras 模型 也 创建 好 了 。 训 练 CycleGAN 包含 
多 个 步 又， 如 下 所 示 。 


(1) 加 载 数据 集 。 
(2) 创建 生成 网 络 和 判别 网 络 。 
(3) 按 特定 轮 数 训练 网 络 。 


uy 


(4) 绘制 损失 图 。 

(5) 生成 新 图 像 。 

在 开始 训练 之 前 ， 首 先 定义 一 些 核心 变量 ， 如 下 所 示 。 
data_dir = "/Path/to/dataset/directory/*.*" 


batch size = 1 
epochs = 500 


7.5.1 加 载 数据 集 
加 载 数据 集 的 步 又 如 下 。 
(1) 首先 使 用 glob 模块 ， 创 建 一 个 由 图 像 路 径 组 成 的 列表 ， 如 下 所 示 。 


AS - 立 - 
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imagesA = 9lopbpl(dqata_ dir + '/testA/*.*') 
imagesB = globl(data dir + '/testB/*.*') 

由 于 数据 来 自 领 域 A 和 领域 B， 因 此 创建 了 两 个 列表 。 
(2) 然后 迭代 列表 。 在 循环 内 部 加 载 图 像 并 缩放 ， 表 在 水 平方 向 上 翻转 ， 如 下 所 示 。 
allImagesA = [] 
allImagesB = [] 
选 代 列 表 
for index, filename in enumerate (imagesA) : 
加 载 图 像 
imgA = imread (filename, mode='RGB') 
imgB = imread (imagesBl[index], mode='RGB') 
缩放 图 像 
imgA = imresize(imgA, (128, 128)) 
imgB = imresize(imgB, (128, 128)) 
在 水 平方 向 上 随机 翻转 图 像 
if np.random.random() > 0.5: 
imgA = np.fliplr (imgA) 
imgB = np.fliplr (imgB) 
allImagesA.append (imgA) 
allImagesB.append (imgB) 


(3) 接着 将 图 像 归 一 化 ， 将 像素 值 转换 到 介 于 -1 到 1 之 间 ， 如 下 所 示 。 


# 将 图 像 归 一 化 
allImagesA = np.array (alllimagesA) / 127.5 i 
allImagesB = np.array (alllImagesB) / 127.5 - 1 
加 载 数据 集 的 完整 代码 如 下 。 
def load_ images (data_dir): 
imagesA = glob(data dir + '/testA/*.*') 
imagesB = glob(data dir + '/testB/*.*') 
allImagesA = [|] 
allImagesB = [|] 
for index, filename in enumerate (imagesA): 
# 加 载 图 像 
imgA = imread (filename, mode='RGB') 
imgB = imread (imagesB[index], mode='RGB') 
# 缩放 图 像 
imgA = imresize(imgA, (128, 128)) 
imgB = imresize(imgB, (128, 128)) 
# 在 水 平方 向 上 随机 翻转 图 像 
if np.random.random() > 0.5: 


imgA 
imgB 


allImagesA. 
allImagesB. 


np.fliplr (imgA) 
np.fliplr (imgB) 


append (imgA) 
append (imgB) 
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# 将 图 像 归 一 化 
allImagesA = np.array(allImagesA) / 127.5 - 1. 


allImagesB = np.array(allImagesB) / 127.5 - 1. 


return allImagesA, allImagesB 
上 面 的 函数 返回 两 个 NumPy ndarray。 在 开始 训练 之 前 ， 首 先 使 用 该 函数 加 载 图 像 并 进行 预 
处 理 。 


7.5.2 ”构建 并 编译 网 络 
下 面 构建 核心 网 络 ， 并 为 训练 做 准备 。 操 作 步 又 如 下 。 
(1) 首先 定义 训练 所 需 的 优化 器 ， 代 码 如 下 。 


# 定义 共用 的 优化 器 


common_optimizer = Adam(0.0002, 0.5) 


选择 Adam 优化 器 ， 设 置 学 习 速 率 为 0.0002、beta_1 值 为 0.5。 


(2) 创建 判别 网 络 ， 代 码 如 下 。 


build discriminator() 
build discriminator() 


discriminatorA 
discriminatorB 


前 面 讲 过 ，CycleGAN 拥有 两 个 判别 网 络 。 


(3) 然后 编译 两 个 判别 网 络 ， 如 下 所 示 。 


discriminatorA.compile(loss='mse', optimizer=common optimizer., 
metrics=['accuracy']) 

discriminatorB.compile(loss='mse', optimizer=common_ optimizer., 
metrics=['accuracy']) 


使 用 mse 作为 损失 函数 、accuracy 作为 度量 ， 编 译 网 络 。 


(4) 接着 创建 生成 网 络 A( generatorAToB ) 和 生成 网 络 B ( generatorBToA )。 生 成 网 络 A 的 
输入 是 数据 集 A 中 的 真实 图 像 (realA ), 输出 为 重 构 的 图 像 (fakeB )。 生 成 网 络 B 的 输入 是 数据 
集 B 中 的 真实 图 像 (realB )， 输 出 是 重 构 的 图 像 (fakeA )， 如 下 所 示 。 


buildq_generator () 
build generator() 


generatorAToB 
generatorBToA 


7.1.1 节 讲 过 ，CycleGAN 拥有 两 个 生成 网 络 。generatorAToB 将 图 像 从 领域 A 转换 到 领域 B， 
而 generatorBToA 将 图 像 从 领域 B 转换 到 领域 A。 


这 样 就 创建 好 了 两 个 生成 网 络 和 两 个 判别 网 络 。 下 面 创建 并 编译 对 抗 网 络 。 
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创建 并 编译 对 抗 网 络 

对 抗 网 络 是 一 个 组 合 网 络 ， 在 一 个 Keras 模型 中 使 用 了 全 部 4 个 网 络 。 创 建 对 抗 网 络 旨 在 训 
练 生成 网 络 。 训 练 对 抗 网 络 时 ， 锁 定 判别 网 络 ， 只 训练 生成 网 络 。 下 面 创建 一 个 具有 理想 功能 的 
对 抗 网 络 。 

(1) 首先 为 网 络 创建 两 个 输入 层 ， 如 下 所 示 。 


inputA 
inputB 


两 个 输入 都 接收 维度 为 (128，128，3) 的 图 像 。 这 些 输入 是 符号 输入 变量 ， 并 未 实际 取 
值 ， 用 于 创建 Keras 模型 ( TensorFlow 图 )。 


(2) 然后 使 用 生成 网 络 生成 假 图像 ， 如 下 所 示 。 


generatedB 
generatedA 


使 用 符号 输入 层 生成 图 像 。 
(3) 接着 使 用 男 一 组 生成 网 络 重 构 原始 图 像 ， 如 下 所 示 。 


reconstructedA 
reconstructedB 


(4) 使 用 生成 网 络 生 成 假 图 像 ， 如 下 所 示 。 


generatedAIid 
generatedBIid 


生成 网 络 A (generatorAToB ) 将 图 像 从 领域 A 转换 到 领域 B， 而 生成 网 络 B ( generatorBToA ) 
将 图 像 从 领域 B 转换 到 领域 A。 


(5) 然后 将 两 个 判别 网 络 设置 为 “不 可 训练 ”， 如 下 所 示 。 


discriminatorA.trainable 
discriminatorB.trainable 


在 对 抗 网 络 中 ， 不 训练 判别 网 络 。 
(6) 使 用 判别 网 络 估 测 每 个 生成 图 像 是 真是 假 ， 如 下 所 示 。 


probsA 
probsB 


(7) 创建 一 个 Keras 模型 ， 并 指定 网 络 的 输入 和 输出 ， 如 下 所 示 。 


adversarial model = Model (inputs=[inputA, inputB], 
outputs=[probsA, probsB, reconstructedAa, 
reconstructedB, generatedAId, generatedBId]) 


对 抗 网 络 接收 两 个 输入 值 ( 都 是 张 量 )， 返 回 6 个 输出 值 (都 是 张 量 )。 


Input (shape=(128, 128, 3)) 
Input (shape=(128, 128,..3)) 


generatorAToB (inputA) 
generatorBToA (inputB) 


generatorBToA (generatedB) 
generatorAToB (generatedA) 


generatorBToA (inputA) 
generatorAToB (inputB) 


False 
False 


discriminatorA (generatedA) 
discriminatorB (generatedB) 
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(8) 然后 编译 对 抗 网 络 ， 如 下 所 示 。 
adversarial_model.compilel(loss=['mse', 'mse', 'mae', 'mae', 'mae', 'mae'], 
loss weightess=Elr 1 T0000 FQ Te Ql 
optimizer=common_optimizer) 

对 抗 网 络 返 回 6 个 值 , 需要 为 每 个 输出 值 指定 损失 函数 。 对 于 前 两 个 值 , 使 用 均 方 误差 损失 ， 
因为 这 是 对 抗 损失 的 一 部 分 ; 对 于 后 面 4 个 值 , 使 用 平均 绝对 误差 损失 ， 因 为 这 是 循环 一 致 性 损 
失 的 一 部 分 。6 个 损失 的 权重 值 分 别 为 1、1、10.0、10.0、1.0 和 1.0。 使 用 common_optimizer 
训练 网 络 。 


这 样 就 创建 好 了 对 抗 网 络 的 Keras 模型 。 关 于 Keras 模型 的 工作 原理 
及 其 功能 的 相关 文档 。 


开始 训练 之 前 ， 按 照 如 下 两 个 关键 步骤 进行 操作 。 稍 后 会 用 到 TensorBoard。 
添加 TensorBoard 以 存储 用 于 进行 可 视 化 的 损失 和 图 ， 如 下 所 示 。 


tensorboard = TensorBoard(log_ dir="logs/{}".format (time.time()), 
write_ images=True, write_ grads=True, 
write_graph=True) 
tensorboard.set_model (generatorAToB) 
tensorboard.set_model (generatorBToA) 
( 
( 


请 参考 TensorFlow 图 


tensorboard.set_model (discriminatorA) 
tensorboard.set_model (discriminatorB) 


创建 一 个 四 维 数组 ， 所 有 值 都 为 1， 代 表 真实 标签 。 类 似 地 ， 再 创建 一 个 四 维 数组 ， 所 有 值 
都 为 0， 代 表 虚 假 标签 ， 如 下 所 示 。 


real_labels 
fake_labels 


使 用 NumpPy 的 ones () 函数 和 zeros () 函数 创建 所 需 的 数组 。 至 此 ,核心 部 分 就 准备 好 了 ， 
下 面 开 始 进 行 训 练 。 


7.5.3 ”开始 训练 


根据 下 面 各 步骤 ， 按 指定 轮 数 训练 网 络 。 
(1) 首先 加 载 两 个 领域 的 数据 集 ， 如 下 所 示 。 


imagesA, imagesB = load_ images (data_dqir=dqata_dqir) 


np.ones((batch size, 7, 7, 1)) 
np.zZeros((batch size, 7, 7, 1)) 


1oad_images 也 数 是 在 7.5.1 闻 定义 的 。 


(2) 然后 创建 一 个 for 循环 ， 其 运行 次 数 和 指定 轮 数 相同 ， 如 下 所 示 。 


for epoch in range (epochs): 
print ("Epoch:{}".format (epoch)) 
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(3) 创建 两 个 列表 ， 用 于 存储 所 有 人 小 批 次 的 损失 ， 如 下 所 示 。 


[] 
[] 


(4) 计算 每 轮训 练 循环 中 的 小 批 次 数量 ， 如 下 所 示 。 


num batches = int (min(imagesA.shape[0], imagesB.shape[0]) / batch size) 
print ("Number of batches:{}".format (num batches)) 


(5) 接着 在 训练 轮 循环 内 部 再 创建 一 个 循环 ， 其 运行 次 数 与 num_batches 指定 的 数量 相同 ， 
如 下 所 示 。 


for index in range (num batches): 
print ("Batch:{}".format (index)) 


训练 判别 网 络 和 对 抗 网 络 的 完整 代码 都 在 该 循环 中 。 

1. 训练 判别 网 络 

以 下 代码 接着 前 面 的 代码 。 训 练 判别 网 络 的 流程 如 下 。 

(1) 首先 从 两 个 领域 分 别 采 样 一 小 批 次 图 像 ， 如 以 下 代码 所 示 。 


patchA 
batchB 


(2) 然后 使 用 生成 网 络 生成 假 图 像 ， 如 下 所 示 。 


generatorAToB.predict (batchA) 
generatorBToA.predict (batchB) 


dis_losses 
gen_losses 


ll 


imagesA[index * batch size: (index + 1) * batch_ sizel] 
imagesB[index * batch size: (index + 1) * batch sizel] 


generatedB 
generatedA 


(3) 接着 使 用 真实 图 像 和 (生成 网 络 生 成 的 ) 虚假 图 像 训 练 判别 网 络 A， 如 下 所 示 。 


dALoss1 
dALoss2 


该 步骤 使 用 一 小 批 次 真实 图 像 和 虚假 图 像 训练 判别 网 络 A， 使 之 小 幅 优 化 。 
(4) 然后 使 用 真实 图 像 和 虚假 图 像 训 练 判别 网 络 B， 如 下 所 示 。 


dBLossl1 
dbLoss2 


(5) 计算 判别 网 络 的 总 损失 值 ， 如 下 所 示 。 


d_loss =0.5 * np.add(0.5 * np.add(dALossl1, dALoss2), 
0.5 * np.add(dBLossl1l, dbLoss2)) 


添加 好 了 训练 判别 网 络 的 代码 ， 下 面 通过 训练 对 抗 网 络 来 训练 生成 网 络 。 


discriminatorA.train on batch(batchA, real_labels) 
discriminatorA.train on batch(generatedA, fake_labels) 


QiscriminatorB .train_ on batch(batchB, real_labels) 
discriminatorB.train on batch(generatedB, fake_labels) 
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2. 训练 对 抗 网 络 


训练 对 抗 网 络 需 要 使 用 输入 值 和 真实 值 。 网 络 的 输入 值 是 batcha 和 batchB。 真 实 值 是 
real_labels、real_labels、batchA、batchB、batchA 和 batchB， 如 下 所 示 。 


g_loss = adversarial model.train on batch([batchA, batchB], 
[real_labels, real_labels, 
batchA, batchB, batchA, batchB]) 


这 一 步 训练 生成 网 络 ， 不 训练 判别 网 络 。 


在 每 个 小 批 次 的 迭代 (循环 ) 完成 之 后 ， 将 损失 存储 在 名 为 dis losses 和 gen_losses 的 列表 
中 ， 如 下 所 示 。 


dis_losses.append(d_loss) 
gen_losses.append(g_loss) 


每 训练 10 轮 ， 使 用 生成 网 络 生成 一 组 图 像 。 


# 每 训练 10 轮 ， 采 样 图 像 并 保存 
if epoch % 10 == 0: 
# 获取 一 批 次 测试 数据 
batchA, batchB = load test_batch(data_ dir=data_dir, batch_ size=2) 
# 生成 图 像 
generatedB = generatorAToB.predict (batchA) 
generatedA = generatorBToA.predict (batchB) 
# 获取 重 构图 像 
reconsA = generatorBToA.predict (generatedB) 
reconsB = generatorAToB.predict (generatedA) 
# 保存 原始 图 像 、 生 成 图 像 和 重 构图 像 
for i in range(len (generatedA)): 
save_images (originalA=batchA[i], generatedB=generatedB[i], 
recosntructedA=reconsA[i], 
originalB=batchB[i], generatedA=generatedA[i], 
reconstructedB=reconsB[i], 
path="results/gen_{}_{}".format (epoch, i)) 


将 上 面 的 代码 块 放 入 轮 循环 中 。 每 训练 10 轮 ， 生 成 一 批 次 假 图 像 并 保存 到 结果 目录 中 。 
然后 将 平均 损失 存储 到 TensorBoard 中 ， 用 于 可 视 化 ， 包 括 生 成 网 络 的 平均 损失 和 判别 网 络 
的 平均 损失 。 如 下 所 示 。 


write_log(tensorboard, '‘'discriminator_loss', np.mean(dis_losses), epoch) 
write_log(tensorboard, 'generator_loss', np.mean(gen losses), epoch) 


将 上 面 的 代码 块 放 入 轮 循环 中 。 


7.5.4 保存 模型 
在 Keras 中 ， 保 存 模型 只 需 一 行 代码 ， 如 下 所 示 。 
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# 指定 生成 网 络 入 模型 的 路 径 


generatorAToB.save ("directory/for/the/generatorAToB/model .nh5") 


# 指定 生成 网 络 B 模型 的 路 径 


generatorBToA.save ("directory/for/the/generatorBToA/model .hn5") 


类 似 地 ， 保 存 判别 网 络 模型 的 代码 如 下 。 


# 指定 判别 网 络 A 模型 的 路 径 
discriminatorA.save("directory/for/the/discriminatorA/model.h5") 


# 指定 判别 网 络 B 模型 的 路 径 
discriminatorB.save("directory/for/the/discriminatorB/model.h5") 


7.5.5 生成 图 像 可 视 化 
100 轮训 练 后 ， 生 成 网 络 会 开始 生成 比较 不 错 的 图 像 。 下 面 看 一 下 这 些 生成 的 图 像 。 
10 轮训 练 后 ， 图 像 如 图 7-2 所 示 。 


Original Generated Reconstructed 


图 7-2 10 轮 训练 后 生成 的 图 像 
20 轮训 练 后 ， 图 像 如 图 7-3 所 示 。 


Original Generated Reconstructed 


~ 


Original Generated Reconstructed 


鸯 。 泥 | 


图 7-3 ”20 轮训 练 后 生成 图 像 
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建议 将 网 络 训练 1000 轮 。 一 切 顺利 的 话 ，1000 轮训 练 后 ,生成 网 络 会 开始 生成 台 真 的 图 像 。 


7.5.6 ”损失 可 视 化 

启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 。 如 下 所 示 。 

tensorboard --logdir=logs 

然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 包含 了 两 种 损失 的 曲线 
图 ， 如 下 所 示 。 

判别 网 络 的 损失 图 如 图 7-4 所 示 。 


discrimina torJoss 


图 7-4 判别 网 络 的 损失 图 
生成 网 络 的 损失 图 如 图 7-5 所 示 。 


generator -ioss 


图 7-5 生成 网 络 的 损失 图 


这 些 曲线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 , 因为 已 经 没 
有 提升 的 可 能 了 。 如果 损失 不 断 提 高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参数 以 获得 更 好 的 结果 。 
如 果 损失 在 逐渐 降低 ， 就 继续 训练 模型 。 
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7.5.7 ”图 可 视 化 
TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 果 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 


于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 7-6 )。 


图 7-6 各 图 中 的 张 量 和 不 同 运算 的 流 


7.6 ”CycleGAN 的 实际 应 用 
CycleGAN 有 很 多 实际 应 用 。 本 章 使 用 CycleGAN 将 绘画 转换 为 照片 。CycleGAN 还 可 应 用 
于 以 下 场景 。 
口 风格 变换 : 比如 将 照片 转换 为 绘画 ( 或 者 反 过 来 )、 将 马 的 照片 转换 为 斑马 的 照片 (或 者 
反 过 来 ) 以 及 将 橙子 的 照片 转换 为 苹果 的 照片 〈 或 者 反 过 来 )。 
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口 照片 增强 : CycleGAN 可 用 于 提高 照片 质量 。 
D 季节 转换 : 比如 将 冬天 拍摄 的 照片 转换 为 夏天 拍摄 的 照片 〈 或 者 反 过 来 )。 
口 游戏 风格 迁移 : CycleGAN 可 用 于 将 A 游戏 的 风格 迁移 到 B 游戏 。 


7.7 ”小结 


本 章 介绍 了 如 何 使 用 CycleGAN 将 绘画 转换 为 照片 。 首 先 简单 介绍 了 CycleGAN， 探讨 了 
CycleGAN 涉及 的 网 络 架构 ， 然 后 介绍 了 训练 CycleGAN 所 需 的 不 同 损失 函数 ， 接 着 使 用 Keras 
框架 实现 了 CycleGAN， 随 后 在 monet2photo 数据 集 上 训练 CycleGAN ， 并 且 对 生成 的 图 像 、 损 
失 ， 以 及 不 同 网 络 的 图 都 进行 了 可 视 化 ， 最 后 介绍 了 CycleGAN 的 实际 应 用 。 


下 一 章 会 介绍 用 于 图 像 对 图 像 变 换 的 pix2pix 网 络 ， 以 及 用 于 图 像 变换 的 cGAN。 


7.8 延伸 阅读 
CycleGAN 用 途 广泛 。 可 以 参考 以 下 文章 ， 了 解 CycleGAN 的 更 多 用 途 。 


口 “Turning Fortnite into PUBG with Deep Learning (CycleGAN)” 
口 “GAN 一 CycleGAN (Playing magic with pictures)” 

口 “Itroduction to CycleGANS” 

口 “Understanding and Implementing CycleGAN in TensorFlow” 


使 用 cGAN 实现 图 像 对 
图 像 变 换 


pix2pix 是 一 种 GAN， 用 于 进行 图 像 对 图 像 变 换 ， 即 将 图 像 从 一 种 表示 变换 为 男 一 种 表示 。 
pix2pix 学 习 从 输入 图 像 到 输出 图 像 的 一 种 映射 ， 可 用 于 将 黑白 图 像 转换 为 彩色 图 像 、 将 草图 转 
换 为 照片 、 将 白天 的 图 像 转换 为 夜间 的 图 像 、 将 卫星 图 像 转化 为 地 图 图 像 等 。pix2px 网 络 最 初 是 
由 Phillip Isola 、Jun-Yan Zhu 、Tinghui Zhou 和 Alexei A. Efros 在 论文 “Image-to-Image Translation 
with Conditional Adversarial Networks” 中 提出 的 。 


本 章 将 讨论 以 下 主题 。 


口 pix2pix 网 络 简介 

口 pix2pix 网 络 架 构 

口 数据 收集 和 准备 

口 pix2pix 的 Keras 实现 
口 目标 函数 

口 训练 pix2pix 

口 评估 训练 好 的 模型 
口 pix2pix 网 络 的 实际 应 用 


8.1 pix2pix 简介 


pix2pix 是 cGAN 的 一 个 变 体 。 第 3 章 介 绍 过 cGAN， 后 续 内 容 将 基于 它 展开 。pix2pix 可 
以 运用 无 监督 机 器 学 习 技 术 进 行 图 像 对 图 像 变换 。 训 练 完 成 后 ，pix2pix 可 以 将 图 像 从 领域 A 
变换 到 领域 B。 普 通 CNN 也 可 以 进行 图 像 对 图 像 变 换 ， 但 是 不 能 生成 清晰 双 真 的 图 像 ， 而 
pix2pix 可 以 。 本 章 会 使 用 pix2pix 将 建筑 立 面 标记 网 转换 为 建筑 立 面 图 像 。 首 先 介绍 pix2pix 
的 架构 。 
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8.1.1 pix2pix 架构 

和 其 他 GAN 类 似 ，pix2pix 由 一 个 生成 网 络 和 一 个 判别 网 络 组 成 。 生 成 网 络 的 架构 受到 了 
U-Net 架构 的 启发 ， 而 判别 网 络 的 架构 受到 了 PatchGAN 架构 的 启发 。 这 两 个 网 络 都 是 深度 卷 积 
神经 网 络 。 下 面 深入 探讨 pix2pix。 

1. 生成 网 络 

前 面 提 过 ， 生 成 网 络 深 受 U-Net 架构 的 启发 。U-Net 架构 和 自 编码 网 络 的 架构 非常 相似 ， 一 
个 主要 区 别 是 U-Net 网 络 在 编码 网 络 和 解码 网 络 的 各 层 之 间 有 跳跃 连接 ， 而 自 编码 网 络 没有 。 
U-Net 网 络 由 编码 网 络 和 解码 网 络 组 成 。 图 8-1 展示 了 U-Net 的 基本 架构 。 


U-Net 


图 8-1 U-Net 的 基本 架构 

上 图 展示 了 U-Net 基本 架构 。 可 以 看 到 ,第 一 层 的 输出 直接 和 最 后 一 层 合并 , 第 二 层 的 输出 
和 倒数 第 二 层 合并 ， 以 此 类 推 。 如 果 总 层 数 为 xn， 那么 在 编码 网 络 的 第 i 层 和 解码 网 络 的 第 (n -i) 
层 之 间 就 会 有 跳跃 连接 ， 对 于 所 有 层 皆 是 如 此 。 下 面 详细 介绍 这 两 个 网 络 。 


@ 编码 网 络 
编码 网 络 是 生成 网 络 的 前 半 部 分 ， 由 8 个 卷 积 块 组 成 ， 其 配置 见 表 8-1。 
表 8-1 

层 名 称 超 参 数 输入 形状 输出 形状 
fil =64, ize=4, 
第 1 个 2D 卷 积 层 ee . 2 (256, 256, 1) (128, 128, 64) 

strides=2, padding='same', 

激活 层 activation='leakyrelu', alpha=0.2 (128, 128, 64) (128, 128, 64) 


二 filters=128, kernel_ size=4, 
第 2 个 2D 卷 积 层 es i (128, 128, 64) (64, 64, 128) 
strides=2, padding='same', 


批 归 一 化 层 无 (64, 64, 128) (64, 64, 128) 


激活 层 activation='leakyrelu', alpha=0.2 (64, 64, 128) (64, 64, 128) 
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( 续 ) 
层 名 称 超 参 数 输入 形状 输出 形状 
pet i filters=256, kernel_ size=4, 
第 3 个 2D 卷 积 层 人 (64，64，128) (32，32，256) 
strides=2, padding='same', 
批 归 一 化 层 无 (32，32，256) (32，32，256) 
激活 层 activation='leakyrelu', alpha=0.2 (32, 32, 256) (32, 32, 256) 
i . filters=512, kernel_size=4, 
第 4 个 2D 卷 积 层 - i (32, 32, 256) (16, 16, 512) 
strides=2, padding='same', 
批 归 一 化 层 无 (16, 16, 512) (16, 16, 512) 
激活 层 activation='leakyrelu', alpha=0.2 (16, 16, 512) (16, 16, 512) 
A le filters=512, kernel_size=4, 
第 5 个 2D 卷 积 层 es (16, 16, 512) (8, 8, 512) 
strides=2, padding='same', 
批 归 一 化 层 无 (8, 8, 512) (8, 8, 512) 
激活 层 activation='leakyrelu', alpha=0.2 (8, 8, 512) (8, 8, 512) 
J filters=512, kernel_size=4, 
第 6 个 2D 卷 积 层 - ye (8, 8, 512) (4, 4, 512) 
strides=2, padding='same', 
批 归 一 化 层 无 (4, 4, 512) (4, 4, 512) 
激活 层 activation='leakyrelu', alpha=0.2 (4, 4, 512) (4, 4, 512) 
a Ny filters=512, kernel_ size=4, 
第 7 个 2D 卷 积 层 gk (4, 4, 512) (2, 2, 512) 
strides=2, padding='same', 
批 归 一 化 层 无 (2 (2 
激活 层 activation='leakyrelu', alpha=0.2 03.0 5 (oD) 
入 a filters=512, kernel_ size=4, 
第 8 个 2D 卷 积 层 人 CB) 
strides=2, padding='same', 
批 归 一 化 层 无 (1, 1, 512) (1, 1, 512) 
激活 层 activation='leakyrelu', alpha=0.2 (1, 1, 512) (1, 1, 512) 
编码 网 络 之 后 是 解码 网 络 。 下 面 介绍 解码 网 络 的 架构 。 
@ 解码 网 络 
生成 网 络 中 的 解码 网 络 由 8 个 上 采样 卷 积 块 组 成 ， 其 配置 见 表 8-2。 
表 8-2 
层 名 称 超 参 数 输入 形状 输出 形状 
第 1 个 2D 上 采样 卷 积 层 size=(2，2) (1, 1, 512) (2, 2, 512) 
a filters=512, kernel_size=4, 
2D 卷 积 层 . 加 (2，2，512) (2，2，512) 


strides=1, padding='same', 


8.1 pix2pix 简介 181 
( 续 ) 
层 名 称 超 参 数 输入 形状 输出 形状 
批 归 一 化 层 无 (2，2，512) (2，2，512) 
随机 失 活 层 dropout=0.5 (2，2，512) (2，2，512) 
拼接 层 〈 编码 网 络 的 第 7 层 ) axis=3 (27 27512) (2, 2, 1024) 
激活 层 activation='relu' (2，2，1024) (2，2，1024) 
第 2 个 2D 上 采样 卷 积 层 size=(2，2) (2，2，1024) (4, 4, 1024) 
2D 卷 积 层 es Kee D105 oe i 
strides=1, padding='same', 
批 归 一 化 层 无 (4, 4, 1024) (4, 4, 1024) 
随机 失 活 层 dropout=0.5 (4, 4, 1024) (4, 4, 1024) 
拼接 层 ( 编码 网 络 的 第 6 层 ) axis=3 (4, 4, 1024) (4, 4, 1536) 
激活 层 activation='relu' (4, 4, 1536) (4, 4, 1536) 
第 3 个 2D 上 采样 卷 积 层 size=(2，2) (4, 4, 1536) (8, 8, 1536) 
2D 卷 积 层 ee dy KOS (8, 8, 1536) 帮 > 汪 人员 
strides=1, padding='same', 
批 归 一 化 层 无 (8, 8, 1024) (8, 8, 1024) 
随机 失 活 层 dropout=0.5 (8, 8, 1024) (8, 8, 1024) 
拼接 层 ( 编码 网 络 的 第 5 层 ) axis=3 (8, 8, 1024) (8, 8, 1024) 
激活 层 activation='relu' (8, 8, 1536) (8, 8, 1536) 
第 4 个 2D 上 采样 卷 积 层 size=(2, 2) (8, 8, 1536) (16, 16, 1536) 
2D 卷 积 层 Sp EY 人 人 人 
strides=1, padding='same', 
批 归 一 化 层 无 (16, 16, 1024) (16, 16, 1024) 
拼接 层 ( 编码 网 络 的 第 4 层 ) axis=3 (16, 16, 1024) (16, 16, 1536) 
激活 层 activation='relu' (16, 16, 1536) (16, 16, 1536) 
第 5 个 2D 上 采样 卷 积 层 size=(2，2) (16, 16, 1536) (32，32，1536) 
2D 卷 积 层 St Se Hoa} KO (32, 32, 1536) (32,32, 1024) 
strides=1, padding='same', 
批 归 一 化 层 无 (32，32，1024) (32，32，1024) 
拼接 层 ( 编码 网 络 的 第 3 层 ) axis=3 (32, 32;. 1024) (32，32，1280) 
激活 层 activation='relu' (32，32，1280) (32，32，1280) 
第 6 个 2D 上 采样 卷 积 层 size=(2，2) (64，64，1280) (64, 64, 1280) 
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续 ) 
层 名 称 超 参 数 输入 形状 输出 形状 


ey filters=512, kernel size=4, 
2D 卷 积 层 : (64，64，1280) (64，64，512) 
strides=1, padding='same', 


批 归 一 化 层 无 (64, 64, 512) (64, 64, 512) 
拼接 层 ( 编码 网 络 的 第 2 层 ) axis=3 (64, 64, 512) (64, 64, 640) 
激活 层 activation='relu' (64, 64, 640) (64, 64, 640) 
第 7 个 2D 上 采样 卷 积 层 size=(2, 2) (64, 64, 640) (128, 128, 640) 


Ee filters=256, kernel_ size=4, 
2D 卷 积 层 . | (128, 128, 640 (128, 128, 256) 
strides=1, padding='same', 


批 归 一 化 层 无 (128, 128, 256) (128, 128, 256) 
拼接 层 〈 编码 网 络 的 第 1 层 ) axis=3 (128, 128, 256) (128, 128, 320) 
激活 层 activation='relu' (128, 128, 320) (128, 128, 320) 
第 8 个 2D 上 采样 卷 积 层 size=(2, 2) (128, 128, 320 (256, 256, 320) 


2 a filters=1, kernel size=4, 
2D 卷 积 层 . (256, 256, 320 (256, 256, 1) 
strides=1, padding='same', 


激活 层 activation='tanh' (256, 256, 1) (256, 256, 1) 
生成 网 络 中 有 7 个 跳跃 连接 ， 定 义 如 下 。 


口 编码 网 络 中 第 1 块 的 输出 和 解码 网 络 
口 编码 网 络 中 第 2 块 的 输出 和 解码 网 络 
口 编码 网 络 中 第 3 块 的 输出 和 解码 网 络 
口 编码 网 络 中 第 4 块 的 输出 和 解码 网 络 
口 编码 网 络 中 第 5 块 的 输出 和 解码 网 络 
口 编码 网 络 中 第 6 块 的 输出 和 解码 网 络 的 第 2 块 进 行 拼 提 
口 编码 网 络 中 第 7 块 的 输出 和 解码 网 络 的 第 1 块 进行 拼 拉 


所 有 拼接 都 是 沿 通道 轴 进 行 的 。 编码 网 络 的 最 后 一 层 将 张 量 传 递 给 解码 网 络 的 第 一 层 。 编码 
网 络 的 最 后 一 块 和 解码 网 络 的 最 后 一 块 之 间 并 无 拼接 。 


生成 网 络 由 上 述 两 个 网 络 组 成 。 简 单 说 来 ,编码 网 络 是 一 个 下 采样 网 络 , 解码 网 络 是 一 个 上 
采样 网 络 。 编 码 网 络 将 维度 是 (256，256，1) 的 图 像 下 采样 为 维度 是 (1，1，512) 的 内 部 表示 ， 
而 解码 网 络 将 维度 是 (1，1，512) 的 内 部 表示 上 采样 为 维度 是 (256，256，1) 的 输出 图 像 。 


J 第 7 块 进 行 拼接 
J 第 6 块 进行 拼接 
4 第 5 块 进 行 拼接 
4 第 4 块 进行 拼接 。 
榜 
榜 
榜 


TREE ER 


4 第 3 块 进行 拼 提 


IE 瑟瑟， 下 


外 8.4 节 会 详细 介绍 生成 网 络 的 架构 。 
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2. 判别 网 络 架构 


pix2pix 的 判别 网 络 架 构 受 到 了 PatchGAN 架构 的 启发 。 PatchGAN 包含 8 个 卷 积 块 , 如 表 8-3 
所 示 。 


表 8-3 
层 名 称 超 人 参 数 输入 形状 输出 形状 

第 1 个 2D 卷 积 层 ee Kenel Saes4, (256, 256, 1) (256, 256, 64) 
strides=2, padding='same', 

激活 层 activation='leakyrelu', alpha=0.2 (128, 128, 64) (128, 128, 64) 

第 2 个 2D 卷 积 层 Fer Kernel S17 (128, 128, 64) (64, 64, 128) 
strides=2, padding='same', 

批 归 一 化 层 无 (64, 64, 128) (64, 64, 128) 

激活 层 activation='leakyrelu', alpha=0.2 (64, 64, 128) (64, 64, 128) 

第 3 个 2D 卷 积 层 人 (64，64，128) (32，32，256) 
strides=2, padding='same', 

批 归 一 化 层 无 (32，32，256) (32，32，256) 

激活 层 activation='leakyrelu', alpha=0.2 (32，32，256) (32，32，256) 

第 4 个 2D 卷 积 层 eS TS (32, 32, 256) (16, 16, 512) 
strides=2, padding='same', 

批 归 一 化 层 无 (16, 16, 512) (16, 16, 512) 

激活 层 activation='leakyrelu', alpha=0.2 (16, 16, 512) (16, 16, 512) 

第 5 个 2D 卷 积 层 Eile Ferhel Sis4 (16, 16, 512) (8, 8, 512) 
strides=2, padding='same', 

批 归 一 化 层 无 (8, 8, 512) (8, 8, 512) 

激活 层 activation='leakyrelu', alpha=0.2 (8, 8, 512) (8, 8, 512) 

第 6 个 2D 卷 积 层 tor lL; Te le (8, 8, 512) (4, 4, 512) 
strides=2, padding='same', 

批 归 一 化 层 无 (4, 4, 512) (4, 4, 512) 

激活 层 activation='leakyrelu', alpha=0.2 (4, 4, 512) (4, 4, 512) 

第 7 个 2D 卷 积 层 lersr ?2 kernel S174 (4, 4, 512) (2, 2, 512) 
strides=2, padding='same', 

批 归 一 化 层 无 (2, 2, 512) (2, 2, 512) 

激活 层 activation='leakyrelu', alpha=0.2 (2 二 1 人 2) (2，2，512) 

第 8 个 2D 卷 积 层 filters=512, kernel_ size=4, (4, 4, 512) (1, 1, 512) 
strides=2, padding='same', 

批 归 一 化 层 无 (1, 1, 512) (1, 1, 512) 

激活 层 activation='leakyrelu', alpha=0.2 (1, 1, 512) (1, 1, 512) 

扁平 化 层 无 (Lh 2 (512, ) 

全 连接 层 units=2, activation='softmax' (ls i-512) [62 
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上 表 展 现 了 判别 网 络 的 架构 和 配置 。 其 中 ， 扁 平 化 层 将 张 量 转换 成 一 维 数组 。 


8.4 节 将 会 介绍 判别 网 络 的 余下 各 层 。 
介绍 过 了 两 个 网 络 的 架构 和 配置 ， 下 面 介绍 训练 pix2pix 所 需 的 目标 函数 。 


8.1.2 ”训练 目标 函数 
pix2pix 是 一 种 cGAN ， 其 目标 函数 形式 如 下 。 
Leonn(G,D)= Ellog D(x,y)]+ Ellog(l— D(x, G(x,7))] 
网 络 G( 生成 网 络 ) 试图 将 上 面 的 函数 最 小 化 ， 而 对 手 D (判别 网 络 ) 试图 将 其 最 大 化 。 
普通 GAN 的 目标 函数 如 下 ， 便 于 和 cGAN 的 目标 函数 对 比 。 


Lenn(G,D)=E,llog DO)]+ Ellog(l— D(G(x, 2))] 


可 在 目标 函数 中 添加 一 个 L1 损失 函数 ， 以 避免 图 像 过 于 模糊 。L1 损失 函数 形式 如 下 。 
Lin(G)=E,,ll|y- G(x,7)h] 


其 中 , y 是 原始 图 像 ，G(x, z) 是 生成 网 络 生 成 的 图 像 。L1 损失 的 计算 过 程 是 ， 取 原始 图 像 和 生成 
图 像 的 每 个 像素 值 之 间 的 绝对 差 ， 然 后 对 所 有 绝对 差 求 和 。 


pix2pix 的 最 终 目 标 函 数 如 下 。 


G*=arg min max Lonn(G,D)+4L,(G) 


这 是 cGAN 的 损失 函数 和 LI 损失 函数 的 加 权 和 。 
以 上 是 pix2pix 网 络 的 基础 知识 。 在 使 用 Keras 实现 pix2pix 之 前 ， 首 先 创 建 项 目 。 


8.2 创建 项 目 


前 面 已 经 克隆 或 下 载 了 本 书 所 有 章节 的 完整 代码 。 其 中 目录 Chapter08 包含 本 章 的 完整 代码 。 
执行 如 下 命令 以 创建 项 目 。 


(1) 首先 访问 父 目录 ， 如 下 所 示 。 


cd Generative-Adversarial-Networks-Projects 


(2) 从 当前 目录 切换 到 Chapter08。 
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cd Chapter09 


(3) 然后 为 本 项 目 创建 一 个 Python 虚拟 环境 。 
virtualenv venv 
Virtualenv venv -p python3 # 创建 一 个 使 用 Python 3 解释 器 的 虚拟 环境 
Virtualenv venv -p python2 # 创建 一 个 使 用 Python 2 解释 器 的 虚拟 环境 
本 项 目 会 使 用 这 个 新 创建 的 虚拟 环境 。 每 章 都 有 独立 的 虚拟 环境 。 
(4) 启用 新 创建 的 虚拟 环境 ， 如 下 所 示 。 
source venv/bin/activate 
启用 虚拟 环境 之 后 ， 后 续 所 有 命令 都 会 在 其 中 执行 。 
(5) 执行 如 下 命令 ， 安 装 requirements.txt 文件 中 列 出 的 所 需 的 库 。 


pip install -r requirements.txt 


README.md 文件 包含 创建 项 目的 更 多 指导 。 开 发 者 经 常会 遇 到 依赖 程序 不 匹配 的 问题 。 可 
以 通过 为 每 个 项 目 创 建 独立 的 虚拟 环境 来 解决 。 


这 样 就 创建 好 了 项 目 且 安装 了 所 需 的 依赖 程序 。 下 面 处 理 数据 集 。 首 先 介绍 下 载 数据 集 及 处 
图 格式 的 各 个 步 又。 


8.3 准备 数据 
要 用 的 Facades 数据 集 可 从 http://efrosgans.eecs.berkeley.edu/pix2pix/datasets/facades.tar.gz 下 载 。 
该 数据 集 包 含 建 筑 立 面 标注 图 和 建筑 立 面 真实 图 像 。 其 中 建筑 立 面 一 般 指 建筑 的 正 立 面 ,而 
建筑 立 面 标注 图 是 建筑 立 面 图 像 的 建筑 学 标注 。 下 载 数据 集 后 , 会 对 建筑 立 面 有 更 多 了 解 。 执 行 
如 下 命令 ， 下 载 并 提取 数据 集 。 
(1) 执行 如 下 命令 ， 下 载 数据 集 。 


# 下 载 数据 集 之 前 ,访问 数 据 目录 
cd data 


tt 


# 下 载 数据 集 
wget 
http://efrosgans.eecs.berkeley.edu/pix2pix/datasets/facades.tar.gz 


(2) 下 载 完 数据 集 后 ， 使 用 如 下 命令 提取 数据 集 。 


tar -XVZE facades.tar.gz 


数据 集 的 文件 结构 如 图 8-2 所 示 。 
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图 8-2 
如 上 所 示 ， 数 据 集 分 为 训练 集 、 测 试 集 和 验证 集 。 下 面 提取 图 像 。 


加 载 数据 集 的 步 又 如 下 。 


(1) 首先 创建 一 个 包含 建筑 立 面 标注 图 .h5 文件 的 列表 ， 以 及 一 个 包含 建筑 立 面 真实 图 像 .h5 
文件 的 列表 ， 如 下 所 示 。 


data_dir path = os.path.join(data _ dir, data_type) 


# 获取 和 包含 训练 图 像 的 所 有 .h5 文件 


facade _ photos_h5 = [f for f in os.listdir(os.path.join(data_ dir path, 'images') 
| 
facade_labels_h5 = [f for f in os.listdir(os.path.join(data dir path, 'facades') 


I 二 这 二] 


(2) 然后 欠 代 〈 循环 ) 这 些 列表 ， 依 次 加 载 各 图 像 。 


final_facade photos = None 
final_facade_labels = None 


for index in range(len(facade_ photos_h5)): 


以 下 所 有 代码 都 放 在 前 面 的 for 循环 中 。 
(3) 接着 加 载 包 含 图 像 的 h5 文件 ， 提 取 实 际 图 像 的 NumPy ndarray。 


facade_ photos_ path = data dir path + '/images/' + 
facade_photos_h5[index] 

facade_labels path = data dir path + '/facades/' + 
facade_labels_h5[index] 


网 
') 


facade_ photos = h5py.File(facade photos_ path, ' 
facade_labels = h5py.File(facade labels path, ' 


(4) 缩放 图 像 至 所 需 大 小 ， 如 下 所 示 。 


下 
J 
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# 缩放 图 像 并 归 一 化 
num photos = facade photos['data'].shapel[0] 
num_labels = facade_labels['data'] .shapel[0] 


all_facades_photos = np.array (facade photos['data'], dtype=np.float32) 
all_facades_photos = all_facades photos.reshape( (num photos, img_width, 
inmg height, 1)) 7 2550 


all_facades_labels = np.array (facade_labels['data'], dtype=np.float32) 
all_facades_labels = all_facades_labels.reshape( (num_ labels, img_width, 
img_height, 1)) / 255.0 


(5) 接着 将 缩放 后 的 图 像 添加 到 最 终 的 ndarray。 


if final_facade photos is not None and final_facade labels is not 
None: 
final_facade photos = np.concatenate([final_facade photos, 
all_facades_photos], axis=0) 
final_facade_labels = np.concatenate([final_facade_ labels, 
all_facades._labels], axis=0) 
else: 
final_facade photos = all_facades_photos 
final_facade_labels = all_facades_labels 


加 载 图 像 并 进行 缩放 的 完整 代码 如 下 。 


def load dataset (data _ dir, data type, img width, img_height): 
data_dir path = os.path.join(data_ dir, data type) 


# 获取 和 包含 训练 图 像 的 所 有 .h5 文件 


facade photos_h5 = [f for f in os.listdir(os.path.join(data dir path, 'images')) 
ES” nef] 
facade_labels _h5 = [f for f in os.listdir(os.path.join(data dir path, 'facades') 


i "5" En Af£] 


final_facade photos = None 
final_facade_labels = None 


for index in range(len (facade photos_h5)): 
facade_ photos_path = data_ dir path + '/images/' + facade photos_h5[index] 
facade_labels path = data dir path + '/facades/' + facade_ labels_h5[index] 


二 


facadqe_photos = h5py.File(facade photos_ path, ' 


葵 
facade_labels h5py.File(facade_ labels path, 'r 


# 缩放 图 像 并 归 一 化 
num_ photos = facade photos['data'].shapel[0] 
num_labels = facade_labels['data'] .shape[0] 


all_facades_photos = np.array (facade photos['data'], dtype=np.float32) 
all_facades_photos = all_facades photos.reshape( (num photos, img_width, 
img_height, 1)) / 255.0 


all_facades_labels = np.array (facade_labels['data'], dtype=np.float32) 
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all_facades_labels = all_facadqes_lapbpels.reshape( (num labels, img_width, 
img height,; 1)). /20550 


if final_facade photos is not None and final_facade labels is not None: 
final_facade_ photos = np.concatenate([final_facade photos, 
all_facades_photos], axis=0) 
final_facade_labels = np.concatenate([final_facade_ labels, 
all_facades_labels], axis=0) 
else: 
final_facade_ photos = all_facades_photos 
final_facade_labels = all_facades_labels 


return final_facade photos, final_facade labels 


上 面 的 函数 会 加 载 训练 集 、 测 试 集 和 验证 集 目录 下 的 .hs 文件 中 的 图 像 。 


图 像 可 视 化 
下 面 的 Python 函数 可 将 建筑 立 面 标注 图 和 建筑 立 面 图 像 可 视 化 。 


def visualize bw_ image (img): 


将 黑白 图 像 可 视 化 


fig = plt.figure!() 

ax = fig.add _ subplot(1, 1, 1) 

ax.imshow(img, cmap='gray', interpolation='nearest') 
电站 直 忆 下 各 《于 下 区 ) 

ax.set_title("Image") 

plt.show!() 


使 用 该 函数 对 建筑 立 面 标注 图 或 者 建筑 立 面 照 片 进行 可 视 化 ， 如 下 所 示 。 


visualize_bw_image (image) 


visualize_bw_image (image 


图 8-3 展示 了 一 张 建 筑 立 面 图 像 。 


图 8-3 一 张 建 筑 立 面 图 像 
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8-4 展示 的 是 该 图 像 的 建筑 学 标注 图 。 


图 8-4 ”建筑 立 面 图 像 的 建筑 学 标注 图 


下 面 训 练 一 个 可 以 根据 建筑 立 面 标注 图 生成 建筑 立 面 图 像 pix2pix 网 络 。 首 先 编写 生成 网 络 
和 判别 网 络 的 Keras 实现 代码 。 


8.4 pi 


x2pix 的 Keras 实现 


前 面 讲 过 ，pix2pix 由 一 个 生成 网 络 和 一 个 判别 网 络 组 成 。 生 成 网 络 的 架构 受到 了 U-Net 架 


构 的 启发 ， 


而 判别 网 络 的 架构 受到 了 PatchGAN 架构 的 启发 。 下 面 依次 实现 这 两 个 网 络 。 


开始 编写 实现 代码 之 前 ， 首 先 创建 一 个 Python 文件 main. py， 导入 核心 模块 ， 如 下 所 示 。 


import 
import 


import 
import 
import 
import 


from 
from 
from 


from 


os 
time 


h5py 

keras.backend as K 

matplotlib.pyplot as plt 

numpy as np 

Cv2 import imwrite 

keras import Input, Model 

keras.layers import Convolution2D, LeakyReLU, BatchNormalization, \ 


UpSampling2D, Dropout, Activation, Flatten, Dense, Lambda, Reshape, concatenate 


keras.optimizers import Adam 


8.4.1 生成 网 络 


生成 网 络 接收 源 领 域 A 中 维度 为 (256，256,， 1) 的 图 像 , 变换 成 目标 领域 B 中 维度 为 (256， 
256,， 1 ) 的 图 像 。 简单 说 来 , 它 将 源 领 域 A 中 的 图 像 变 换 成 目标 领域 B 中 的 图 像 。 下 面 使 用 Keras 
框架 实现 生成 网 络 。 


创建 生成 网 络 的 步骤 如 下 。 
(1) 首先 定义 生成 网 络 所 需 的 超 参数 。 
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kernel_size = 4 
strides = 2 
leakyrelu_alpha 
upsampling_size = 2 

dropout: = Qs 
output_channels = 1 
input_shape = (256, 256, 1) 


然后 创建 一 个 输入 层 ， 为 网 络 提供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_shape) 


ll 
Le 
DD 


(2 


_ 


人 输入 层 接 收 形状 为 (256，256，1) 的 输入 图 像 ， 将 其 传递 给 网 络 中 的 下 一 层 。 


如 前 所 述 ， 生 成 网 络 由 一 个 编码 网 络 和 一 个 解码 网 络 组 成 。 下 面 编 写 编码 网 络 的 代码 。 


(3) 使 用 8.1.1 节 列 出 的 参数 ， 为 生成 网 络 添加 第 一 个 卷 积 块 。 
# 编码 网 络 的 第 1 个 卷 积 块 


encoderl1 = Convolution2D(filters=64, kernel_ size=kernel_ size, 
padding='same', strides=strides) (input_layer) 
encoderl1 = LeakyReLU(alpha=leakyrelu_alpha) (encodqer1) 


第 一 个 卷 积 块 包含 一 个 2D 卷 积 层 和 一 个 激活 函数 。 和 其 他 7 个 卷 积 块 不 同 ， 该 卷 积 块 没有 
批 归 一 化 层 o 


(4) 为 生成 网 络 添加 余下 7 个 卷 积 块 。 
# 编码 网 络 的 第 2 个 卷 积 块 


encoder2 = Convolution2D(filters=128, kernel_size=kernel_ size, 
padding='same', 

strides=strides) (encoder1) 

encoder2 = BatchNormalization() (encoder?2) 

encoder2 = LeakyReLU(alpha=leakyrelu_alpha) (encodqer2) 


# 编码 网 络 的 第 3 个 卷 积 块 
encoder3 = Convolution2D(filters=256, kernel_size=kernel_ size, 
padding='same', 

strides=strides) (encoder?2) 

encoder3 = BatchNormalization() (encoder3) 

encoder3 LeakyReLU(alpha=leakyrelu_alpha) (encoder3) 


# 编码 网 络 的 第 4 个 卷 积 块 
encoder4 = Convolution2D(filters=512, kernel_size=kernel_ size, 
padding='same', 

strides=strides) (encoder3) 

encoder4 = BatchNormalization() (encoder4) 

encoder4 = LeakyReLU(alpha=leakyrelu_alpha) (encoder4) 


# 编码 网 络 的 第 5 个 卷 积 块 
encoder5 = Convolution2D (filters=512, kernel_size=kernel_ size, 
padding='same', 
strides=strides) (encoder4) 
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BatchNormalization() (encoder5) 
LeakyReLU(alpha=leakyrelu_alpha) (encoder5) 


encoder5 
encoder5 


# 编码 网 络 的 第 6 个 卷 积 块 

encoder6 = Convolution2D(filters=512, kernel_ size=kernel size, 
padding='same', 

strides=strides) (encoder5) 

encoder6 = BatchNormalization() (encoder6) 

encoder6 = LeakyReLU(alpha=leakyrelu_ alpha) (encoder6) 


# 编码 网 络 的 第 7 个 卷 积 块 

encoder7 = Convolution2D(filters=512, kernel_size=kernel size, 
padding='same', 

strides=strides) (encoder6) 

encoder7 = BatchNormalization() (encoder7) 

encoder7 = LeakyReLU(alpha=leakyrelu_ alpha) (encoder7) 


# 编码 网 络 的 第 8 个 卷 积 块 

encoder8 = Convolution2D(filters=512, kernel_ size=kernel size, 
padding='same', 

strides=strides) (encoder7) 

encoder8 = BatchNormalization() (encoder8) 

encoder8 = LeakyReLU(alpha=leakyrelu_ alpha) (encoder8) 


生成 网 络 中 的 编码 网 络 部 分 到 此 为 止 。 生 成 网 络 的 第 二 部 分 是 解码 网 络 。 下 面 编 写 解码 网 络 
的 代码 。 


(5) 添加 第 1 个 上 采样 卷 积 块 ， 使 用 8.1.1 节 列 出 的 参数 。 
# 解码 网 络 的 第 1 个 上 采样 卷 积 块 


decoderl1 = UpSampling2D(size=upsampling_size) (encoder8) 

decoderl1 = Convolution2D(filters=512, kernel_size=kernel size, 
padding='same') (decoder]1) 

decoder1 = BatchNormalization() (decoder!1) 

decoderl1 = Dropout (dropout) (decoder]) 

decoder1 = concatenate([decoderl1l, encoder7], axis=3) 

decoderl1 = Activation('relu') (decoder1) 


第 一 个 上 采样 块 接 收 的 输入 来 自 编码 网 络 的 最 后 一 层 。 该 块 包含 一 个 2D 上 采样 层 、 一 个 2D 
卷 积 层 、 一 个 批 归 一 化 层 、 一 个 随机 失 活 层 、 一 个 拼接 操作 和 一 个 激活 函数 。 关 于 这 些 层 的 更 多 
信息 ， 可 参考 Keras 文档 。 


(6) 类 似 地 ， 添 加 后 续 7 个 卷 积 块 ， 如 下 所 示 。 


# 解码 网 络 的 第 2 个 上 采样 卷 积 块 Si 


decoder2 = UpSampling2D(size=upsampling_size) (daecodqer1) 
decoder2 = Convolution2D(filters=1024, kernel size=kernel_size, 
padding='same') (decoder2) 

decoder2 = BatchNormalization() (decoder?2) 

decoder2 = Dropout (dropout) (decoder2) 

decoder2 = concatenate([decoder2, encoder6]) 

decoder2?2 = Activation('relu') (decoder2) 
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解码 网 络 的 第 3 个 上 采样 卷 积 
decoder3 Es sg upsampling_size) (decoder2) 
decoder3 Convolution2D (filters=1024, kernel_ size=kernel_size, 
padding='same') (decoder3) 
decoder3 = BatchNormalization() (decoder3) 
decoder3 Dropout (dropout) (decoder3) 
decoder3 concatenate([decoder3, encoder5]) 
decoder3 = Activation('relu') (decoder3) 
解码 网 络 的 第 4 个 上 采样 卷 积 块 
decoder4 = UpSampling2D(size=upsampling_size) (decoder3) 
decoder4 Convolution2D(filters=1024, kernel_ size=kernel_size, 
padding='same') (decoder4) 
decoder4 = BatchNormalization() (decoder4) 
decoder4 concatenate([decoder4, encoder4]) 
decoder4 = Activation('relu') (decoder4) 
解码 网 络 的 第 5 个 上 采样 卷 积 块 
decoder5 = UpSampling2D(size=upsampling_size) (decoder4) 
decoder5 Convolution2D (filters=1024, kernel_ size=kernel_size, 
padding='same') (decoder5) 
decoder5 = BatchNormalization() (decoder5) 
decoder5 concatenate([decoder5, encoder3]) 
decoder5 = Activation('relu') (decoder5) 
解码 网 络 的 第 6 个 上 采样 卷 积 块 
decoder6 = UpSampling2D(size=upsampling_size) (decoder5) 
decoder6 Convolution2D(filters=512, kernel_size=kernel_ size, 
padding='same') (decoder6) 
decoder6 = BatchNormalization() (decoder6) 
decoder6 concatenate([decoder6, encoder2]) 
decoder6 = Activation('relu') (decoder6) 
解码 网 络 的 第 7 个 上 采样 卷 积 块 
decoder7 = UpSampling2D(size=upsampling_size) (decoder6) 
decoder7 Convolution2D(filters=256, kernel_size=kernel_ size, 
padding='same') (decoder7) 
decoder7 = BatchNormalization() (decoder7) 
decoder7 = concatenate([decoder7, encoderl1]) 
decoder7 = Activation('relu') (decoder7) 
后 的 卷 积 层 
decoder8 = UpSampling2D(size=upsampling_size) (decoder7) 
decoder8 = Convolution2D(filters=output_channels, 
kernel_ size=kernel_ size, padding='same') (decoder8) 
decoder8 Activation('tanh') (decoder8) 


最 后 一 层 的 激活 函数 是 tanh, 使 生成 网 络 生 成 的 值 限制 在 -1 到 1 范 
添加 跳跃 连接 。 最 后 一 层 生成 维度 为 (256， 


= 


concatenate 层 将 张 量 治 


的 轴 进 


行 拼接 。 


通道 维度 


2.5.6%, 


围 内 。concatenate 层 用 于 
) 的 张 量 。 


行 拼接 。 也 可 以 另外 指定 一 个 值 , 沿 该 值 对 应 
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(7) 最 后 ， 指 定 生成 网 络 的 输入 和 输出 以 创建 Keras 模型 。 
# 创建 一 个 Keras 模型 


model = Model (inputs=[input_layer], outputs=[decoder8]) 


将 生成 网 络 的 完整 代码 包装 成 Python 函数 ， 如 下 所 示 。 


def build unet_generator(): 


使 用 下 面 定 义 的 超 参 数值 创建 U-Net 生成 网 络 


kernel_size = 4 
strides = 2 
leakyrelu_alpha = 0.2 
upsampling_size 
dropout = 0.5 
output_channels = 1 
input_shape = (256, 256, 1) 


ll 
DD 


input_layer = Input (shape=input_shape) 


# 编码 网 络 


# 编码 网 络 的 第 1 个 着 积 块 
encoderl1 = Convolution2D(filters=64, kernel_ size=kernel_ size, 
padding='same', 
strides=strides) (input_layer) 
encoderl1 = LeakyReLU(alpha=leakyrelu alpha) (encodqer1) 


# 编码 网 络 的 第 2 个 卷 积 块 

encoder2 = Convolution2D(filters=128, kernel_size=kernel size, 
padding='same', 

strides=strides) (encoder1) 

encoder2 = BatchNormalization() (encoder2?2) 

encoder2 = LeakyReLU(alpha=leakyrelu_alpha) (encoder2) 


# 码 网 络 的 第 3 个 卷 积 块 
encoder3 = Convolution2D(filters=256, kernel_size=kernel size, 
padding='same', 

strides=strides) (encoder?2) 

encoder3 = BatchNormalization() (encoder3) 

encoder3 = LeakyReLU(alpha=leakyrelu_alpha) (encoder3) 


# 编码 网 络 的 第 4 个 卷 积 块 

encoder4 = Convolution2D(filters=512, kernel_size=kernel_ size, 
padding='same', 
strides=strides) (encoder3) 

encoder4 = BatchNormalization() (encoder4) 

encoder4 = LeakyReLU(alpha=leakyrelu_alpha) (encoder4) 


# 编码 网 络 的 第 5 个 卷 积 块 


encoder5 = Convolution2D(filters=512, kernel_size=kernel_ size, 
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padding='same', 
strides=strides) (encoder4) 
encoder5 = BatchNormalization() (encoder5) 
encoder5 = LeakyReLU(alpha=leakyrelu_alpha) (encoder5) 


# 编码 网 络 的 第 6 个 卷 积 块 

encoder6 = Convolution2D(filters=512, kernel_size=kernel size, 
padding='same', 
strides=strides) (encoder5) 

encoder6 = BatchNormalization() (encoder6) 

encoder6 = LeakyReLU(alpha=leakyrelu_alpha) (encoder6) 


# 编码 网 络 的 第 7 个 卷 积 块 

encoder7 = Convolution2D(filters=512, kernel_size=kernel size, 
padding='same', 
strides=strides) (encoder6) 

encoder7 = BatchNormalization() (encoder7) 

encoder7 = LeakyReLU(alpha=leakyrelu_alpha) (encoder7) 


# 编码 网 络 的 第 8 个 卷 积 块 

encoder8 = Convolution2D(filters=512, kernel_ size=kernel size, 
padding='same', 
strides=strides) (encoder7) 

encoder8 = BatchNormalization() (encoder8) 

encoder8 = LeakyReLU(alpha=leakyrelu_alpha) (encoder8) 


# 编码 网 络 


# 解码 网 络 的 第 1 个 上 采样 卷 积 块 

decoderl1 = UpSampling2D(size=upsampling_size) (encoder8) 

decoderl1 = Convolution2D(filters=512, kernel_ size=kernel_size, 
padding='same') (decoder!1) 

decoderl1 = BatchNormalization() (decoder!1) 

decoderl1 = Dropout (dropout) (decoder!]) 

decoderl1 = concatenate([decoderl1l, encoder7], axis=3) 

decoderl1 = Activation('relu') (decoder1) 


# 解码 网 络 的 第 2 个 上 采样 卷 积 块 

decoder2 = UpSampling2D(size=upsampling_size) (decoder!1) 

decoder2 = Convolution2D(filters=1024, kernel_ size=kernel_ size, 
padding='same') (decoder?2) 

decoder2 = BatchNormalization() (decoder2) 

decoder2 = Dropout (dropout) (decoder2) 

decoder2 = concatenate( [decoder2, encoder6]) 

decoder2?2 = Activation('relu') (decoder?2) 


# 解码 网 络 的 第 3 个 上 采样 卷 积 块 

decoder3 = UpSampling2D(size=upsampling_size) (decoder2) 

decoder3 = Convolution2D(filters=1024, kernel_ size=kernel_ size, 
padding='same') (decoder3) 

decoder3 = BatchNormalization() (decoder3) 

decoder3 = Dropout (dropout) (decoder3) 

decoder3 = concatenate([decoder3, encoder5]) 

decoder3 = Activation('relu') (decoder3) 
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# 解码 网 络 的 第 4 个 上 采样 卷 积 

decoder4 = ee eo te Oa upsampling_size) (decoder3) 

decoder4 = Convolution2D(filters=1024, kernel_ size=kernel size, 
padding='same') (decoder4) 

decoder4 = BatchNormalization() (decoder4) 

decoder4 = concatenate([decoder4, encoder4]) 

decoder4 = Activation('relu') (decoder4) 


# 解码 网 络 的 第 5 个 上 采样 卷 积 

decoder5 = ne upsampling_size) (decoder4) 

decoder5 = Convolution2D(filters=1024, kernel size=kernel size, 
padding='same') (decoder5) 

decoder5 = BatchNormalization() (decoder5) 

decoder5 = concatenatel( [decoder5, encoder3]) 

decoder5 = Activation('relu') (decoder5) 


# 解码 网 络 的 第 6 个 上 采样 卷 积 块 

decoder6 = UpSampling2D(size=upsampling_size) (decoder5) 

decoder6 = Convolution2D(filters=512, kernel_ size=kernel_ size, 
padding='same') (decoder6) 

decoder6 = BatchNormalization() (decoder6) 

decoder6 = concatenate([decoder6, encoder2]) 

decoder6 = Activation('relu') (decoder6) 


# 解码 网 络 的 第 7 个 上 采样 卷 积 
decoder7 = 0 upsampling_size) (decoder6) 
decoder7 = Convolution2D(filters=256, kernel_ size=kernel_ size, 
padding='same') (decoder7) 
decoder7 = BatchNormalization() (decoder7) 
decoder7 = concatenate([decoder7, encoder1]) 
decoder7 = Activation('relu') (decoder7) 


# 最 后 的 卷 积 层 
decoder8 = UpSampling2D(size=upsampling_size) (decoder7) 
decoder8 = Convolution2D(filters=output_channels, 
kernel_size=kernel_size, padding='same') (decoder8) 
decoder8 = Activation('tanh') (decoder8) 


model = Model (inputs=[input_layer], outputs=[decoder8]) 
return model 


这 样 就 创建 好 了 生成 网 络 的 Keras 模型 。 下 面 创建 判别 网 络 的 Keras 模型 。 


8.4.2 判别 网 络 


判别 网 络 受到 了 PatchGAN 架构 的 启发 , 由 8 个 卷 积 块 、! 个 全 连接 层 和 1 个 扁平 化 层 组 成 。 
判别 网 络 接收 从 维度 为 (2556，256，1) 的 图 像 中 提取 的 一 组 图 像 块 ， 然 后 估 测 给 定 图 像 块 的 概 
率 。 下 面 使 用 Keras 实现 判别 网 络 。 


(1) 首先 定义 判别 网 络 所 需 的 超 参 数 。 
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kernel_ size = 4 

strides = 2 

leakyrelu_alpha = 0.2 

padding = 'same' 

num_filters_start = 64 # 过 滤器 的 初始 数量 
num_ kernels = 100 

kernel dim = 5 

patchgan_ output_dim = (256, 256, 1) 
patchgan patch dim = (256, 256, 1) 


# 计算 图 像 块 的 数量 

number_patches = int((patchgan output_dim[0 
patchgan_ patch dim[0] 
patchgan_ patch dim[1] 


(2) 为 网 络 添加 一 个 输入 层 。 该 层 接收 图 像 块 ， 是 维度 为 patchgan_patch_qim 的 张 量 。 


input_layer = Input (shape=patchgan patch dim) 


(3) 然后 向 网 络 添加 一 个 卷 积 层 ， 如 下 所 示 。8.1.1 节 列 出 了 该 块 的 配置 。 


des = Convolution2D(filters=64, kernel_ size=kernel_size, 
padding=padding, strides=strides) (input_layer) 
des = LeakyReLU(alpha=leakyrelu_alpha) (des) 


(4) 接着 使 用 如 下 代码 计算 卷 积 层 的 数量 。 
# 计算 卷 积 层 的 数量 
total_conv_layers = int (np.floor(np.log(patchgan output_ dim{[1]) / np.log(2))) 


list_filters = [num filters_ start * min(total_ conv_layers, (2 ** 1i)) 
for i in range(total_conv_layers)] 


(5) 然后 使 用 8.1.1 节 列 出 的 超 参数 值 ， 再 添加 7 个 卷 积 块 ， 如 下 所 示 。 
# 后 续 7 个 卷 积 块 


for filters, in list filters[1:]: 
des = Convolution2D(filters=filters, kernel_ size=kernel_size, 
padding=padding, strides=strides) (des) 
des = BatchNormalization() (des) 
des = LeakyReLU(alpha=leakyrelu_alpha) (des) 


(6) 接着 向 网 络 添 加 一 个 扁平 化 层 ， 如 下 所 示 。 


flatten layer = Flatten() (des) 
扁平 化 层 将 一 个 n 维 张 量变 换 成 一 个 一 维 张 量 。 


(7) 类似 地 ， 添 加 一 个 具有 两 个 节点 (神经 元 ) 的 全 连接 层 , 使 用 softmax 作为 激活 函数 。 该 
层 接 收 扁平 化 层 的 张 量 ， 将 其 维度 转换 成 (batch_size，2)。 


dense_layer = Dense(units=2, activation='softmax') (flatten_ layer) 


softmax 函数 将 一 个 向 量 转换 为 一 个 概率 分 布 。 


下 六 
) * (patchgan output_dim[1] / 
) ) 
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(8) 接着 为 PatchGAN 创建 一 个 Keras 模型 ， 如 下 所 示 。 


modqe1_patch_gan = Model (inputs=[input_layer], 
outputs=[dense_layer, flatten layer]) 


PatchGAN 模型 接收 一 个 张 量 作为 输入 ， 和 输出 两 个 张 量 ， 分 别 是 从 全 连接 层 和 扁平 化 层 输出 
的 。PatchGAN 已 经 准备 就 绕 ， 但 该 网 络 无 法 用 作 判 别 网 络 ， 因 为 它 只 能 将 单个 图 像 块 分 类 为 真 
或 假 。 创 建 完整 的 判别 网 络 的 步骤 如 下 。 


(1) 首先 从 输入 图 像 中 提取 图 像 块 , 然后 逐个 传递 给 PatchGAN。 创建 一 个 由 输入 层 构 成 的 列 
表 ， 其 中 输入 层 的 数量 和 图 像 块 数量 相同 。 


# 创建 一 个 由 输入 层 构 成 的 列表 ， 其 中 输入 层 的 数量 和 图 像 块 数量 相同 
list_input_layers = [Input (shape=patchgan patch dim) 
er in range (number_patches) ] 


(2) 接着 将 图 像 块 传递 给 PatchGAN， 以 获得 概率 分 布 。 
# 将 图 像 块 传递 给 PatchGAN， 以 获得 概率 分 布 


outputl = [model_patch gan(patch) [0] for patch in list_input_layers] 

output2 = [model_ patch gan(patch) [1] for patch in list_input_layers] 

如 果 有 多 个 图 像 块 ， 那 么 outputl 和 output2 丝 为 由 张 量 构 成 的 列表 。 至 此 ， 应 该 有 两 个 
由 张 量 构成 的 列表 了 。 


(3) 如 果 有 多 个 图 像 块 ， 沿 通道 维度 将 它们 拼接 起 来 ， 以 计算 感知 损失 。 
# 如 果 有 多 个 图 像 块 ， 沿 通道 维度 将 它们 拼接 起 来 ， 以 计算 感知 损失 


dimension to calculate perceptual loss 
if len(output1l) > 1: 

outputl = concatenate (output1) 
else: 

outputl = outputl1[0] 


# 如 果 有 多 个 图 像 块 ， 将 output2 也 合并 
if len(output2) > 1: 

output2 = concatenate (output2) 
else: 

output2 = output2 [0] 


(4) 接着 创建 一 个 全 连接 层 ， 如 下 所 示 。 


dense_layer2 = Dense(num kernels * kernel dim, use bias=False, activation=None) 于 
(5) 然后 添加 一 个 自 定义 损失 层 ， 该 层 对 接收 的 张 量 计算 小 批 次 的 判别 。 
custom_ loss_layer = Lambda(lambda x: K.sum( 


K.exp(-K.sum(K.abs (K.expangd dims (x, 3) - 
K.expand_dims (K.permute_ dimensions (x, pattern=(1, 2, 0)), 0)), 2)), 2)) 
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(6) 接着 将 output2 张 量 传递 经 过 dense layer2 。 


output2 = dense_layer2 (output2) 


(7) 然后 变换 output2 的 形状 ， 使 之 维度 为 (num_kernels,， kernel dim)。 


output2 = Reshape( (num_ kernels, kernel_ dim)) (output2) 


(8) 接着 将 output2 张 量 传递 给 custom loss_layer。 


output2 = custom loss_layer (output2) 


(9) 然后 将 outputl 和 output2 拼接 成 新 的 张 量 ， 并 将 该 张 量 传递 经 过 一 个 全 连接 层 。 


output1 = concatenate([outputl, output2]) 
final_output = Dense(2, activation="softmax") (output1) 


使 用 softmax 作为 最 后 一 个 全 连接 层 的 激活 函数 ， 返 回 一 个 概率 分 布 。 
(10) 最 后 ， 为 网 络 指定 输入 和 输出 以 创建 判别 网 络 模型 ， 如 下 所 示 。 


discriminator = Model (inputs=list_input_layers, 
outputs=[final_output]) 


判别 网 络 的 完整 代码 如 下 。 


def builgd patchgan discriminator(): 


使 用 下 面 定 义 的 超 参 数值 ， 创 建 一 个 PatchGAN 判别 网 络 

kernel_ size = 4 

strides.s.2 

leakyrelu_alpha = 0.2 

padding = 'same' 

num_filters_start = 64 # 过 滤器 的 初始 数量 

num_ kernels = 100 

kernel dim = 5 

patchgan _ output_dim = (256, 256, 1) 

patchgan patch dim = (256, 256, 1) 

number_patches = int( 
(patchgan_ output_dim[0] / patchgan patch dim[0]) * 
(patchgan_ output_dim[1] / patchgan patch dim[1])) 


input_layer = Input (shape=patchgan patch dim) 
des = Convolution2D(filters=64, kernel size=kernel_ size, 


padding=padding, strides=strides) (input_layer) 
LeakyReLU(alpha=leakyrelu_alpha) (des) 


des 


# 计算 卷 积 层 的 数量 
total_conv_layers = int (np.floor(np.log(patchgan output_ dim[1]) / np.log(2))) 
list_filters = [num filters_ start * min(total_conv_ layers, 

(2 ** i)) for i in range(total_conv_layers)] 
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# 后 续 7 个 卷 积 层 
for filters in list_ filters[l1:]: 
des = Convolution2D(filters=filters, kernel_ size=kernel_ size, 
padding=padding, strides=strides) (des) 
des = BatchNormalization() (des) 
des LeakyReLU (alpha=leakyrelu_alpha) (des) 


# 添加 一 个 扁平 化 层 
flatten_ layer = Flatten() (des) 


# 添加 最 终 的 全 连接 层 
dense_layer = Dense(units=2, activation='softmax') (flatten_ layer) 


# 创建 PatchGAN 模型 
model_patch gan = Modell( 
inputs=[input_layer], outputs=[dense_ layer, flatten layer]) 


# 创建 一 个 由 输入 层 构 成 的 列表 ， 其 中 输入 层 的 数量 和 图 像 块 数量 相同 
list_input_layers = [ 
Input (shape=patchgan patch dim) for in range (number_patches)] 


# 将 图 像 块 传递 通过 PatchGAN 
outputl = [model_patch gan(patch) [0] for patch in list_input_layers] 
output2 = [model_patch gan(patch) [1] for patch in list_input_layers] 


# 如 果 有 多 个 图 像 块 ， 拼 接 输 出 以 计算 感知 损失 
perceptual loss 
if len(output1l) > 1: 
outputl = concatenate (output1) 

else: 
output1 = output1 [0] 


# 如 果 有 多 个 图 像 块 ， 将 output2 也 合并 
if len(output2) > 1: 

output2 = concatenate (output2) 
else: 

output2 = output2 [0] 


# 添加 一 个 全 连接 层 
dense_layer2 = Dense(num kernels * kernel dim, use_ bias=False, 
activation=None) 


# 添加 一 个 lambda 层 
custom_loss_layer = Lambda (lambda x: K.sum( 


K.exp(-K.sum(K.abs (K.expand_ dims (x, 3) - 
K.expand_dims (K.permute_ dimensions (x, pattern=(1, 2, 0)), 0)), 2)), 2)) 


# 将 output2 张 量 传递 通过 dense_layer2 
output2 = dense_layer2 (output2) 


# 变换 output2 张 量 的 形状 
output2 = Reshape( (num_kernels，kerne1l_dqim) ) (output2) 
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# 将 output2 张 量 传递 通过 custom_loss_layer 
output2 = custom loss_layer (output2) 


# 最 后 ， 将 output1 和 output2 拼接 起 来 
output1 = concatenate ( [output1，output2]) 
final_output = Dense(2, activation="softmax") (output1) 


# 创建 判别 网 络 模型 
discriminator = Model (inputs=list_input_layers, outputs=[final_output]) 
return discriminator 


这 样 就 创建 好 了 判别 网 络 。 下 面 创建 对 抗 网 络 。 


8.4.3 对抗 网 络 
下 面 创建 一 个 由 U-Net 生成 网 络 和 PatchGAN 判别 网 络 组 成 的 对 抗 网 络 。 步 又 如 下 。 
(1) 首先 初始 化 超 参数 。 


input_image_ dim = (256, 256, 1) 
patoh- dim se (256.;, 256) 


(2) 然后 创建 一 个 输入 层 ， 向 网 络 提 供 输入 ， 如 下 所 示 。 


input_layer = Input (shape=input_image_dim) 


(3) 接着 使 用 生成 网 络 生成 假 图 像 。 


generated_ images = generator (input_layer) 


(4) 然后 从 生成 的 图 像 中 提取 图 像 块 。 


# 将 生成 图 像 分 割 为 图 像 块 
img_height, img_ width = input_img_ dim[:2] 
patch_ height, patch width = patch dim 


row_idx_list = [(i * patch height, (i + 1) * patch height) 
for i in range(int (img_ height / patch height))] 
column_idx_list = [(i * patch width, (i + 1) * patch width) 


for i in range(int (img_ width / patch width))] 


generated patches_list = [] 
for row_idx in row_ idx_ list: 
for column_ idx in column_ idqx list: 
generated patches_list.append (Lambdal( 
lambda z: zZ[:, column_ idx[0] :column_ idx[1], 
row_idx[0] :row_idx[1], :],， 
output_shape=input_img_dim) (generated images)) 


(5) 定 判 别 网 络 ， 因 为 不 需要 训练 它 。 


discriminator.trainable = False 
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(6) 得 到 了 一 个 由 图 像 块 构成 的 列表 。 将 其 传递 通过 PatchGAN 判别 网 络 。 

dis_output = discriminator (generated patches_list) 
(7) 最 后 ， 为 网 络 指定 输入 和 输出 以 创建 Keras 模型， 如 下 所 示 。 

model = Model (inputs=[input_layer], outputs=[generated images, dis_output]) 
这 样 就 创建 好 了 一 个 对 抗 模型 ， 由 生成 网 络 和 判别 网 络 组 成 。 对 抗 模型 的 完整 代码 如 下 。 


def build adversarial model (generator, discriminator): 


创建 对 抗 模型 


input_image_ dim = (256, 256, 1) 
Dateldim .ss ..(256., 256) 


# 创建 输入 层 


input_layer = Input (shape=input_image_dim) 


# 使 用 生成 网 络 生 成 图 像 


generated_ images = generator (input_layer) 


# 从 生成 的 图 像 中 提取 图 像 块 
img_height, img_ width = input_img dim[:2] 
patch_ height, patch width = patch dim 


row_idx_list = [(i * patch height, (i + 1) * patch height) 
for i in range(int (img_ height / patch height))] 
column_idx_list = [(i * patch width, (i + 1) * patch width) 


for i in range(int (img_ width / patch width))] 


generated patches_list = [] 
for row_idx in row_ idx_ list: 
for column_ idx in column_ idqx list: 
generated patches_list.append (Lambdal( 
lambda z: zZ[:, column_idx[0] :column_ idx[1], 
row_idx[0] :row_idx[1], :],， 
output_shape=input_img_dim) (generated images)) 


discriminator.trainable = False 


# 将 得 到 的 图 像 块 传递 通过 判别 网 络 

dis_output = discriminator (generated patches_list) 

# 创建 模型 

model = Model (inputs=[input_layer], outputs=[generated_ images, dis_output]) 
return model 


至 此 ， 为 生成 网 络 、 判 别 网 络 和 对 抗 网 络 创建 了 模型 ，pix2pix 的 训练 已 经 准备 就 绪 了 。 下 
面 使 用 建筑 立 面 数据 集训 练 pix2pix 网 络 。 
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8.5 训练 pix2pix 网 络 


和 其 他 GAN 类 似 , 训练 pix2pix 网 络 分 为 两 步 。 第 一 步 ， 训 练 判 别 网 络 ; 第 二 步 ， 训练 对 抗 
网 络 ， 即 训练 生成 网 络 。 下 面 开 始 训练 。 


训练 pix2pix 网 络 的 步骤 如 下 。 
(1) 首先 定义 训练 所 需 的 超 参数 。 


epochs = 500 
num_images_per_epoch = 400 
batch size = 1 

img_width = 256 

img_height = 256 

num channels = 1 
HOUut Ln din = "(2567 2256 1) 
patch ddim "(2856; ,256.) 


# 指定 数据 集 目录 路 径 
dataset_dir = "pix2pix-keras/pix2pix/data/facades_bw" 


(2) 然后 定义 共用 的 优化 需 ， 如 下 所 示 。 


common_optimizer = Adam(lr=1E-4, beta 1=0.9, beta 2=0.999， 
epsilon=1le-08) 


所 有 网 络 都 使 用 Adam 优化 器 , 设置 学 习 速 率 为 le-4、peta_1 为 0.9、beta_2 为 0.999、 
epsilon 为 1e-08。 
(3) 接着 构建 并 编译 PatchGAN 判别 网 络 ， 如 下 所 示 。 


patchgan discriminator = build patchgan discriminator() 
patchgan discriminator.compile(loss='binary_crossentropy', 


optimizer=common_optimizer) 


使 用 binary_crossentropy 作为 损失 函数 、common_optimizet 作为 训练 优化 器 , 编 
译 判 别 网 络 模型 。 
(4) 构建 并 编译 生成 网 络 ， 如 下 所 示 。 


unet_generator = puildq_ unet_generator() 
unet_generator.compile(loss='mae', optimizer=common optimizer) 


使 用 mse 作为 损失 函数 、common_optimizer 作为 训练 优化 器 ， 编 译 生成 网 络 。 
(5) 接着 构建 并 编译 对 抗 模型 ， 如 下 所 示 。 


adversarial model = build adversarial model (unet_generator, 
patchgan_discriminator) 
adversarial model.compile(loss=['mae', 'binary_crossentropy'], 
loss_weights=[1E2, 1], optimizer=common_optimizer) 
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使 用 损失 列表 ['mse','binary_crossentropy']， 以 及 common_optimizer 作为 训 

练 优化 器 ， 编 译 对 抗 模型 。 
(6) 加 载 训练 集 、 验 证 集 和 测试 集 ， 如 下 所 示 。 

training_facade photos, training facade labels = load dataset( 


data_dir=dataset_dir, data type='training',img _ width=img_width, 
img_height=img_heignht) 


7 


test_facade_photos, test_facade_ labels = load dataset!( 
data_dir=dataset_dir, data type='testing',img width=img_width, 
img_height=img_height) 


validation_ facade photos, validation _ facade labels = load dataset( 
data_dir= dataset_dir, data type='validation',img width=img_width, 
img_height=img_height) 


lo0agd_dataset 了 国 数 是 在 8.3 节 定 义 的 。 每 个 集合 包含 一 组 图 像 的 ndarray， 集 合 的 维度 
为 (所 有 图 像 的 数量 ，256，256，1)。 


(7) 添加 TensorBoard， 将 训练 损失 和 网 络 图 可 视 化 。 


tensorboard = TensorBoard(log_dir="logs/".format (time.time())) 
tensorboard.set_model (unet_generator) 
tensorboard.set_ model (patchgan discriminator) 


(8) 接着 创建 一 个 for 循环 ， 其 运行 次 数 和 指定 训练 轮 数 相同 ， 如 下 所 示 。 


for epoch in range (epochs): 
print ("Epoch:{}".format (epoch)) 


(9) 创建 两 个 列表 ， 存 储 所 有 小 批 次 的 损失 。 


dis_losses = [] 
gen_losses = [] 
# 初始 化 一 个 变量 
batch_counter = 1 
(10) 然后 在 训练 轮 循环 内 部 再 创建 一 个 循环 ,其 运行 次 数 和 num_batches 指定 的 次 数 相同 ， 
如 下 所 示 。 


num batches = int (training_facade photos.shape[0] / batch size) 
for index in range(int (training_facade photos.shape[0] / batch size)): 
print ("Batch:{}".format (index)) 


训练 判别 网 络 和 对 抗 网 络 的 完整 代码 都 会 放 在 该 循环 中 。 
(11) 接着 采样 一 小 批 次 训练 集 和 验证 集 数据 ， 如 下 所 示 。 


train_facades_batch = training_facadqe_labels[indqex * batch size: (index + 1) * 
batch_size] 
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train_ images_batch = training_ facade photos[index * batch size: (index + 1) * 
batch_ sizel] 
val_facades_batch = validation _ facade labels[index * batch size: 


(index + 1) * batch sizel] 
val_images_batch = validation_ facade photos[index * batch size: 


(index + 1) * batch sizel] 


(12) 然后 生成 一 批 次 假 图 像 , 并 从 其 中 提取 图 像 块 ,使 用 generate_angd_extract_patches 
郴 数 ， 如 下 所 示 。 
patches, labels = generate_andq_extract_patches ( 


train_images_batch, 
train_facades_batch, unet_generator,batch counter, patch dim) 


generate_and_extract_patches 函数 的 定义 如 下 。 


def generate_andqd_extract_patches (images, facades, generator_ model, 
batch_counter, patch dim): 
# 使 用 真实 图 像 和 生成 图 像 轮流 训练 判别 网 络 
LE patch counter 8 2.== 03 
# 生成 假 图像 


output_images = generator_ model.predict (facades) 


# 创建 一 批 次 真实 值 标签 
labels = np.zeros((output_images.shape[0], 2), dtype=np.uint8) 
labels[:, 0] = 1 


else: 
# 接收 真实 图 像 
output_images = images 


# 创建 一 批 次 真实 值 标签 
labels = np.zeros((output_images.shape[0], 2), dtype=np.uint8) 
adeLlsts. 1 = 1 


patches = [] 
for y in range(0, output_images.shape{[0], patch qim[0]) : 
for x in range(0, output_images.shape[l1l], patch qim[1]) : 
image_patches = output_ images[:, y: y + patch dim[0], 
x: X + patch dim[1], :] 
patches.append (np.asarray (image_ patches, dtype=np.float32)) 


return patches, labels 


该 函数 使 用 生成 网 络 生 成 假 图 像 ， 然 后 从 生成 图 像 中 提取 图 像 块 。 现 在 有 了 一 个 由 图 像 
块 组 成 的 列表 ， 以 及 相应 的 真实 值 标签 。 


(13) 使 用 生成 的 图 像 块 训练 判别 网 络 。 


d_loss = patchgan discriminator.train on batch(patches, labels) 


提取 的 图 像 块 和 真实 值 标 签 用 于 训练 判别 网 络 。 
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(14) 使 用 如 下 码 训练 对 抗 模 型 。 对 抗 模型 会 锁定 判别 网 络 ， 而 训练 生成 网 络 。 


labels = np.zeros((train images_batch.shape[0]，2)，qtype=np.uint8) 
labeLlsl::r .11 EL 


# 训练 对 抗 模型 
g_loss = adversarial model.train on_batch ( 
train_facades_batch, [train_ images_batch, labels]) 


(15) 在 每 个 小 批 次 之 后 ， 增 加 批 次 计数 器 的 次 数 。 


batch_counter += 1 


(16) 完成 对 每 个 小 批 次 的 迭代 (循环 ) 之 后 ， 将 损失 存储 在 列表 dis_losses 和 gen_losses 中 。 


dis_losses.append(d_ loss) 
gen_losses.append(g_loss) 


(17) 同时 ， 将 平均 损失 存储 到 TensorBoard， 以 便 进行 可 视 化 ， 包 括 生 成 网 络 的 平均 损失 和 
判别 网 络 的 平均 损失 。 


write_log(tensorboard, 'discriminator_loss', np.mean(dis_ losses), 
epoch) 

write_log(tensorboard, 'generator_loss', np.mean(gen losses), 
epoch) 


(18) 每 训练 10 轮 ， 使 用 生成 网 络 生成 一 组 图 像 。 
# 每 训练 10 轮 ， 生 成 图 像 并 保存 ， 用 于 可 视 化 


if. EpOetsS. 10, Ss=:03 

采样 一 批 次 验证 数据 集 

val_facades_batch = validation_ facade_labels[0:5] 
val_images_batch = validation _ facade photos[0:5] 


生成 图 像 


validation generated images = unet_ generator.predict (val_facades_batch) 


保存 图 像 
save_images (val_images_batch, val_facades. batch, 
validation generated_ images, epoch, 'validation', limit=5) 


将 上 面 的 代码 块 放 入 训练 轮 循环 中 。 每 训练 10 轮 ， 会 生成 一 批 次 假 图 像 ， 并 保存 到 结果 目 
录 。 其 中 ，save_images () 是 一 个 效用 函数 ， 定 义 如 下 。 


def save_images (Teal_images，Lreal_sketches，generatedq_images，Dnum_epoch， 
dataset_name, limit): 

real_sketches = real_sketches * 255.0 

real_images = real_ images * 255.0 

generated_images = generated images * 255.0 


# 只 保存 部 分 图 像 

real_sketches = real_ sketches[:1imit] 
generated_images = generated images[:1imit] 
real_images = real_ images[:l1imit] 
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# 创建 一 个 图 像 栈 


xX = np.hstack( (real_sketches, generated images, real_images)) 


# 保存 图 像 栈 


imwrite('results/x_full_{}_{}.png'.format (dataset_name, 


num_epoch), XxX[0]) 


这 样 就 在 建筑 立 面 数 据 集 上 成 功 训 练 了 pix2pix 网 络 。 将 网 络 训练 1000 轮 , 以 获得 质量 不 错 
的 生成 网 络 。 


8.5.1 保存 模型 


在 Keras 中 ， 保 存 模型 只 需 一 行 代码 ， 如 下 所 示 。 
# 指定 生成 网 络 模型 的 路 径 


unet_generator.save weights ("generator.h5") 


类 似 地 ， 保 存 判别 网 络 模型 的 代码 如 下 。 
# 指定 判别 网 络 模型 的 路 径 


patchgan qisctriminator.save_weights("dqisctriminator .hnh5") 


8.5.2 生成 图 像 可 视 化 


20 轮训 练 后 ， 生 成 网 络 会 开始 生成 比较 不 错 的 图 像 。 下 面 看 一 下 这 些 生成 的 图 像 。 
在 经 过 20、50、150、200 轮 (从 左 至 右 ) 之 后 ， 图 像 如 图 8-5 所 示 。 


20、50、150、200 轮训 练 后 生成 的 
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每 列 从 上 到 下 分 别 是 建筑 立 面 标注 图 、 生 成 图 像 和 真实 图 像 。 建 议 将 网 络 训练 1000 轮 。 一 
切 顺利 的 话 ，1000 轮训 练 后， 生成 网 络 会 开始 生成 逼真 的 图 像 。 


8.5.3 ”损失 可 视 化 
启动 TensorBoard 服务 器 ， 将 训练 损失 可 视 化 ， 如 下 所 示 。 


tensorboard --logdir=logs 


然后 使 用 浏览 器 访问 localhost:6006。TensorBoard 的 SCALARS 部 分 下 包含 了 两 种 损失 的 曲 
线 图 ， 如 图 8-6 所 示 。 


TensorBoard SCALARS GRAPHS LE C 家 @ 


Show data download links Q Filter tags (regular expressions supported) 


lgnore outliers in chart scaling 


discriminator_loss 1 


Tooltip sorting method: default ” 
2 discriminator_loss 


Smoothing 0.454 -| 
全 二 二 二 二 二 = 和 的 
5 0.450 二 
Horizontal Axis 0.446 
STEP WALL 0.442 | 


0 2 4 6 8 10 12 14 
Runs r; 至 回 4 1546973138.299 下 CSV JSON 


Write a regex to filter runs 


1 
O 1546973138.2998514 generalor_loss 


generator_loss 


1.69 
1.67 
1.65 
1.63 
1.61 
1.59 
0 2 4 6 8 10 12 14 
[三 回 且 runto download w CSV JSON 


TOGGLE ALL RUNS 


8-6 两 种 损失 的 曲线 图 
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这 些 曲线 图 有 助 于 判断 是 否 继续 进行 训练 。 如 果 损 失 不 再 降低 ， 可 以 停止 训练 ,因为 已 经 没 
有 提升 的 可 能 了 。 如 果 损失 不 断 提高 , 那么 必须 停止 训练 。 尝试 不 同 的 超 参 数 以 获得 更 好 的 结果 。 
如 果 损失 在 逐渐 降低 ， 就 继续 训练 模型 。 


8.5.4 图 可 视 化 


TensorBoard 的 GRAPHS 部 分 包含 了 两 个 网 络 的 图 。 如 果 这 两 个 网 络 表现 不 佳 ， 这 些 图 有 助 
于 排除 问题 。 它 们 还 可 以 展示 各 图 中 的 张 量 和 不 同 运算 的 流 ( 见 图 8-7 )。 


TensorBoard SCALARS 。 GRAPHS INACTIVE = 必 9 
Search nodes. Regexes supported. Main Graph Auxiliary Nodes 
回 ”Fittoscreen ED EE 
量 Download PNG 一 1/ 村 2 
Run (1) 1546973138.2998514 BD. 全 区 下 we | 一 
1 》 es i 
Session runs 全 二 学 ED: 
0 a 
se \ SS ~ 
Upload Choose File Cr) (aemae 一 三 
SEE 二 | pi 
(BD Traceinputs [ 
Color ® structure / a / pa (ET 
© poree sD ND: ey ed 
Ss 
© XLAa cluster : \ 
ee pe bt 
Over Cs 
© TPu compatibilty / 
colors 。 same substructure Ce : Te 
OO uniquesubstructure / \ 
EE: ~ [9 
NA | 
Ceseeen ) 
| 
CD 
v Close legend. / | 
a CE 二 -= 
2 a 
全 Namespace* 2 © 
OpNode? / wm 
Unconnected series* Em Er 
Connected series: 入 
O Constan2 (as) 
四 Summary2 / 7 
= ni Ca) : - ED ~ 
Control dependency edge 2 要 J 
Wes N aa 
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图 8-7 各 图 中 的 张 量 和 不 同 运算 的 流 


8.6 ”pix2pix 网 络 的 实际 应 用 
pix2pix 网 络 有 很 多 实际 应 用 ， 例 如 : 


口 将 像素 级 别 的 分 段 转 换 为 真实 图 像 ; 
口 将 白天 的 照片 转换 为 夜间 的 照片 ， 或 者 反 过 来 ; 
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口 将 卫星 图 像 转换 为 地 图 图 像 ; 
D 将 草图 转换 为 照片 ; 
口 将 黑白 图 像 转换 为 彩色 图 像 ， 或 者 反 过 来 。 


8-8 来 自 官方 论文 ， 展示 了 pix2pix 网 络 的 各 种 应 用 。 


将 黑白 图 像 转换 为 彩色 图 像 


输 


和 入 输出 
_ 将 边缘 图 转换 为 照片 
NA 


和 入 
将 白天 的 照片 转换 为 夜间 的 照片 


1 
RE 
(ye 
Ne 
,| yy 
i 输出 


输出 


图 8-8 


来 源 :“Image-to-Image Translation with Conditional Adversarial Networks” 


8.7 小 结 
本 章 介 绍 了 pix2pix 的 概念 及 其 架构 。 首 先 下 载 并 准备 了 训练 所 用 的 数据 集 ， 然 后 创建 了 项 


A 


目 并 用 Keras 实现 了 pix2pix 网 络 ， 接 着 介绍 了 训练 pix2pix 网 络 所 需 的 目标 函数 ， 然 后 使 用 建筑 
立 面 数据 集训 练 了 pix2pix 网 络 ， 最 后 探讨 了 pix2pix 网 络 的 一 些 实际 应 用 。 


下 一 章 会 预测 GAN 的 未 来 ， 探 讨 GAN 领域 的 发 展 前 景 ， 以 及 对 各 个 行业 以 及 人 们 日 常生 
活 的 影响 。 


预测 GAN 的 未 来 


本 书 之 前 各 章 细致 讲解 了 如 何 编写 针对 各 种 实际 应 用 的 GAN。GAN 拥有 颠覆 一 些 行业 的 潜 
力 ， 科 学 家 和 研究 者 们 已 经 开发 出 了 可 用 于 构建 商业 应 用 的 各 种 GAN。 本 书 探讨 并 实现 了 一 些 
最 著名 的 GAN 架构 。 


首先 回顾 前 面 讲 过 的 内 容 。 


口 第 1 章 简单 介绍 了 GAN 和 相关 重要 概念 。 

口 第 2 章 介绍 了 一 种 可 以 生成 3D 图 像 的 GAN- 3D-GAN, 并 且 训 练 了 一 个 3D-GAN, 可 
以 生成 现实 世界 物体 ( 比如 飞机 和 桌子 ) 的 3D 模型 。 

口 第 3 章 介绍 了 可 实现 人 脸 老 化 的 cGAN， 以 及 如 何 用 它 将 人 脸 图 像 转换 成 不 同年 龄 的 图 
像 。 这 一 章 还 探讨 了 Age-cGAN 的 实际 应 用 。 

口 第 4 章 介绍 了 DCGAN， 并且 使 用 DCGAN 生成 了 动画 人 物 的 面部 图 像 。 

口 第 5 章 介 绍 了 SRGAN， 并 用 它 将 低 分 辩 率 图 像 转换 成 高 分 辨 率 图 像 。 这 一 章 还 讨论 了 
SRGAN 是 如 何 解决 一 些 非 常 有 趣 的 实际 问题 的 。 

口 第 6 章 介绍 了 StackGAN， 并 用 它 实 现 了 从 文本 到 图 像 的 合成 。 先 是 探索 了 一 个 数据 集 ， 
然后 用 它 训 练 了 StackGAN。 这 一 章 最 后 介绍 了 StackGAN 的 实际 应 用 。 

口 第 7 章 介 绍 了 实现 图 像 对 图 像 变换 的 CyclegGAN , 并 日 实现 了 一 个 可 以 将 绘画 转换 为 照片 
的 CycleGAN。 这 一 章 还 讨论 了 CycleGAN 的 实际 应 用 。 

口 第 8 章 介绍 了 一 种 cGAN 一 一 pix2pix 网 络 ， 并 且 训 练 了 一 个 可 以 基于 建筑 标注 图 生成 建 
筑 立 面 图 像 的 pix2pix 网 络 。 这 一 章 最 后 介绍 了 pix2pix 的 实际 应 用 。 


本 章 讨论 以 下 主题 。 


口 预测 GAN 的 未 来 
口 GAN 的 潜在 应 用 
口 GAN 可 以 深入 探索 的 领域 
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9.1 对 GAN 未 来 的 预测 
GAN 的 未 来 具有 如 下 特点 。 


口 研究 者 社区 对 GAN 及 其 应 用 广泛 接纳 。 

口 不 错 的 成 果 : 对 于 使 用 传统 方法 很 难 完成 的 任务 ，GAN 已 经 取得 了 不 错 的 成 果 。 比 如 此 
前 将 低 分 辩 率 图 像 转换 为 高 分 辩 率 图 像 难度 很 大 ， 通 常 使 用 CNN 来 完成 ,而 SRGAN 和 
pix2pix 等 架构 展现 出 了 GAN 在 该 应 用 上 的 巨大 潜力 。 此 外 ，StackGAN 在 文本 对 图 像 合 
成 任务 上 也 表现 良好 。 如 今 ， 任 何人 都 可 以 创建 SRGAN， 并 使 用 图 像 进 行 训 练 。 

口 深度 学 习 技 术 的 进步 。 

口 GAN 在 商业 应 用 中 的 使 用 。 

口 GAN 训练 过 程 的 成 熟 。 


9.1.1 提升 现 有 的 深度 学 习 方 法 


使 用 有 监督 深度 学 习 方法 训练 模型 需要 庞大 的 数据 量 。 获取 这 些 数据 成 本 高 郧 ,并且 非常 耗 
时 。 有 时 不 能 获得 足够 的 数据 ， 因 为 某 些 数据 无 法 公开 获取 ; 有 的 虽然 可 以 公开 获取 ,但 是 数据 
集 的 规模 又 太 小 ,这 时 可 以 诉 诸 GAN。 对 于 一 个 比较 小 的 数据 集 ,一 旦 在 此 之 上 训练 好 一 个 GAN， 
就 可 以 使 用 该 GAN 生成 同一 个 领域 的 新 数据 了 。 比 如 处 理 图 像 分 类 的 任务 时 ， 如 果 手 头 的 数据 
集 对 于 该 任务 来 说 不 够 大 ， 那 么 可 以 使 用 已 有 图 像 训练 一 个 GAN， 然 后 用 它 生成 该 领域 下 的 新 
图 像 。 尽管 GAN 目前 仍然 存在 训练 不 稳定 的 问题 , 但 一 些 研 究 已 证 明 该 方法 可 以 生成 逼真 图 像 。 


9.1.2 GAN 商业 应 用 的 演化 


GAN 未 来 的 商业 应 用 将 会 更 多 。 目前 已 经 开发 出 了 很 多 GAN 的 商业 应 用 , 并 且 取 得 了 不 错 
的 效果 。 比 如 移动 应 用 Prisma 就 是 最 早 大 获 成 功 的 GAN 应 用 之 一 。 在 不 久 的 将 来 ，GAN 可 能 
会 更 加 大 众 化 ， 届 时 GAN 会 提升 人 们 日 常生 活 的 质量 。 


9.1.3 GAN 训练 过 程 的 成 熟 


从 2014 年 诞生 至 今 ，GAN 一 直 存 在 训练 不 稳定 的 问题 。GAN 有 时 完全 不 收敛 ， 两 个 网 络 
都 从 训练 路 径 上 发 散 。 在 编写 本 书 的 过 程 中 ， 我 兽 多 次 遇 到 这 个 问题 。 研 究 者 们 为 稳定 GAN 训 
练 花费 了 很 大 精力 。 可 以 预见 ， 随 着 深度 学 习 的 发 展 ，GAN 的 训练 方法 会 日 趋 成 熟 ， 以 后 训练 
模型 将 不 再 会 受 各 种 问题 的 困扰 了 。 


9.2 GAN 未 来 的 潜在 应 用 
GAN 的 前 景 一 片 光 明 。 在 不 久 的 将 来 ，GAN 将 会 在 以 下 领域 得 到 应 用 。 
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口 基于 文本 创建 信息 图 
口 设计 网 站 
口 压缩 数据 
D 药物 研发 
口 生成 文本 
口 生成 音乐 


9.2.1 基于 文本 创建 信息 图 


设计 信息 图 是 个 漫长 的 过 程 , 需要 时 间 投 入 和 专业 技能 。 对 于 市 场 营销 和 社交 推广 而 言 , 信 
息 图 能 增色 不 少 , 信息 图 在 社交 媒体 营销 中 起 着 重要 作用 。 由 于 创建 信息 图 很 耗 时 , 一 些 企业 有 
时 只 好 退 而 求 其 次 , 采用 效果 欠 佳 的 其 他 策略 。 借助 AL 和 GAN, 设计 师 可 以 更 好 地 制作 信息 图 。 


9.2.2 设计 网 站 


设计 网 站 同样 耗 时 费力 ， 并 且 需 要 具备 专业 技能 。GAN 可 以 生成 初始 设计 启发 灵感 ， 协 助 
设计 师 进 行 创作 ， 从 而 能 省 下 很 多 金钱 和 时 间 。 


9.2.3 ”压缩 数据 


通过 互联 网 可 以 将 大 量 数据 发 送 到 任何 地 方 ， 但 这 是 有 成 本 的 。GAN 能 提高 图 像 和 视频 的 
分 辨 率 , 这 样 就 可 以 向 需要 的 地 方 发 送 低 分 状 率 的 图 像 和 视频 ,而 只 占用 较 小 的 带宽 , 然后 使 用 
GAN 提高 数据 质量 。 这 开启 了 非常 多 的 可 能 性 。 


9.2.4 研发 药物 


使 用 GAN 研发 药物 可 能 听 起 来 异想天开 , 但 GAN 已 经 用 于 生成 具有 特定 化 学 和 生物 学 
性 质 的 分 子 结构 了 。 制 药 公 司 在 新 药 研 发 上 往往 要 投入 了 数 十 亿美 元 ， 而 GAN 可 以 大 幅 降低 该 
成 本 。 


9.2.5 ”使 用 GAN 生成 文本 


GAN 在 图 像 生成 任务 上 已 经 取得 了 非常 好 的 效果 。GAN 的 研究 目前 仍 集中 在 高 分 辨 率 图 像 
生成 、 文 本 到 图 像 合 成 、 风 格 变 换 、 图 像 对 图 像 变 换 等 任务 上 。 目 前 ,使 用 GAN 生成 文本 方向 
的 研究 不 是 很 多 ， 因 为 GAN 的 设计 理念 是 生成 连续 值 ， 所 以 训练 GAN 生成 离散 值 非常 具有 挑 
战 性 。 可 以 预见 ， 未 来 在 文本 生成 任务 上 会 有 更 多 研究 。 
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9.2.6 使 用 GAN 生成 音乐 


使 用 GAN 生成 音乐 是 另 一 个 未 得 到 足够 探索 的 领域 。 音 乐 创作 是 非常 具有 创造 性 且 非 常 复 
杂 的 过 程 。GAN 有 潜力 改变 音乐 产业 ， 如 果实 现 的话 ， 人 们 可 能 很 快 就 会 听 到 由 GAN 创作 的 曲 
目 了 。 


9.3 探索 GAN 
其 他 GAN 架构 包括 : 


口 BigGAN (“LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE 
SYNTHESIS”) 

口 WaveGAN (“Synthesizing Audio with Generative Adversarial Networks”) 

口 BEGAN (“BEGAN: Boundary Equilibrium Generative Adversarial Networks” ) 

口 AC-GAN (“Conditional Image Synthesis With Auxiliary Classifier GANs” ) 

口 AdaGAN (“AdaGAN: Boosting Generative Models” ) 

DD ArtGAN (“ArtGAN: Artwork Synthesis with Conditional Categorial GANs” ) 

口 BAGAN (“BAGAN: Data Augmentation with Balancing GAN” ) 

口 BicycleGAN (“Toward Multimodal Image-to-Image Translation ”) 

口 CapsGAN (“CapsGAN: Using Dynamic Routing for Generative Adversarial Networks”) 
口 E-GAN (“Evolutionary Generative Adversarial Networks” ) 

口 WGAN (“Wasserstein GAN” ) 


不 止 于 此 ， 研 究 者 们 已 经 开发 出 了 数 以 百 计 的 GAN 架构 。 
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本 书 旨 在 介绍 GAN 及 其 实际 应 用 。 人 的 想象 力 有 多 丰富 , GAN 的 潜力 就 有 多 大 。 如 今 GAN 
架构 的 数量 非常 庞大 ， 并 且 日 趋 成 熟 。GAN 未 来 的 道路 仍然 漫长 ， 因 为 一 些 问 题 依 然 存 在 ， 比 如 
训练 不 稳定 和 模式 塌陷 等 , 但 也 出 现 了 各 种 解决 方法 , 例如 标签 平滑 技术 、 实 例 归 一 化 、 小 批 次 判 
别 , 等 等 。 希望 本 书 有 助 于 你 实现 自己 的 GAN。 如 有 任何 疑问 , 请 发 送 邮件 到 ahikailashl1@gmailcom。 
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